تبديل القائمة
تبديل القائمة الشخصية
غير مسجل للدخول
سيكون عنوان الآيبي الخاص بك مرئيًا للعامة إذا قمت بإجراء أي تعديلات.

التحليل الدلالي الكامن

التحليل الدلالي الكامن هو تقنية في معالجة اللغة الطبيعية -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها.
التحليل الدلالي الكامن - مشهد تخيلي مولد باستخدام الذكاء الصنعي.
التحليل الدلالي الكامن - مشهد تخيلي مولد باستخدام الذكاء الصنعي.

التحليل الدلالي الكامن (بالإنجليزية: Latent semantic analysis (LSA))‏ هو تقنية في معالجة اللغة الطبيعية (بالإنجليزية: Natural Language Processing (NLP))‏ -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها. يقوم التحليل الدلالي الكامن بإنشاء مجموعة من المفاهيم -الميزات الكامنة- والتي تعكس المعنى المشترك بين هذه الوثائق والمصطلحات.

يفترض التحليل الدلالي الكامن أن الكلمات ذات المعنى المماثل ستظهر في أجزاء مماثلة من النص (الدلالات التوزيعية). ويستند هذا الافتراض إلى فكرة أن الكلمات ذات المعنى المماثل تميل إلى أن تستخدم في سياقات مماثلة.

تُبنى مصفوفة من نصوص هذه الوثائق تحتوي على عدد الكلمات في كل وثيقة، حيث تمثل الصفوف الكلمات الفريدة وتشير الأعمدة إلى كل وثيقة. وتستخدم في هذا التحليل تقنية رياضية تُعرف باسم تفريق القيمة المنفردة (SVD) لتقليل عدد الصفوف مع الحفاظ على هيكل التشابه بين الأعمدة.

تُقارن هذه الوثائق بعد ذلك بناءً على تشابه جيب التمام بين أي عمودين. فكلما اقتربت قيمة التشابه من 1 زادت درجة التشابه بين الوثائق، والعكس صحيح.[1]

حصل كل من سكوت ديرويستر وسوزان دومايس وجورج فورناس وريتشارد هارشمان وتوماس لانداور وكارين لوشبوم ولين ستريتر على براءة اختراع تقنية استرجاع المعلومات باستخدام هيكل التحليل الدلالي الكامن في عام 1988 (براءة اختراع أمريكية رقم 4,839,853 منتهية الصلاحية الآن).

يطلق على التحليل الدلالي الكامن في سياق تطبيقه على استرجاع المعلومات اسم الفهرسة الدلالية الكامنة (بالإنجليزية: (LSI) latent semantic indexing)‏ أحيانًا.[2]

نظرة عامة

مصفوفة الحدوث

يمكن للتحليل الدلالي الكامن استخدام مصفوفة الوثائق والمصطلحات وهي مصفوفة رياضية تصف تكرار المصطلحات في مجموعة من الوثائق، وهي مصفوفة متفرقة (متناثرة) تتناغم صفوفها مع المصطلحات وأعمدتها مع الوثائق.

يعتبر "تردد المصطلح - تردد الوثيقة المعكوس" من الأمثلة النموذجية على توزيع عناصر المصفوفة: يتناسب وزن عنصر ما في المصفوفة مع عدد مرات ظهور المصطلحات في كل وثيقة، حيث ترفع أوزان المصطلحات النادرة لتعكس أهميتها النسبية.

تعتبر هذه المصفوفة شائعة أيضًا في النماذج اللفظية القياسية، على الرغم من أنه ليس من الضروري أن تُعبَّر كمصفوفة صراحة، نظرًا لأن الخصائص الرياضية للمصفوفات لا تستخدم فيها دائمًا.

خفض الرتبة

يجد التحليل الدلالي الكامن بعد إنشاء مصفوفة التكرار تقريبًا مُنخفض الرتبة لمصفوفة المصطلحات-المستندات.[3] ويُعزى ذلك لأسباب مختلفة لهذه التقريبات:

  • يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية كبيرة جدًا بالنسبة لموارد الحوسبة ؛ وتُفسر مصفوفة الرتبة المنخفضة في هذه الحالة بتقدير تقريبي (أقل شر ضروري).
  • يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية مشوشة: على سبيل المثال، يجب إزالة الحالات القصصية للمصطلحات. وتُفسر المصفوفة المقدرة كمصفوفة خالية من التشويش (مصفوفة أفضل من المصفوفة الأصلية).
  • يُفترض أن مصفوفة المصطلحات-المستندات الأصلية متفرقة للغاية بالنسبة إلى مصفوفة المصطلحات-المستندات "الحقيقية". وهذا يعني أن المصفوفة الأصلية تسرد فقط الكلمات الموجودة بالفعل في كل مستند، بينما أننا قد نكون مهتمين بجميع الكلمات المتعلقة بكل مستند - وهي مجموعة أكبر بكثير عموما بسبب الترادفات في المعاني.

يؤدي خفض الرتبة إلى دمج بعض الأبعاد وجعلها تعتمد على أكثر من مصطلح واحد.

على سبيل المثال، يمكن أن يتحول التسلسل التالي:

{(سيارة) ، (شاحنة) ، (زهرة)} إلى

{(1.3452 * سيارة + 0.2828 * شاحنة) ، (زهرة)}

يساعد خفض الرتبة على حل مشكلة تحديد المترادفات من خلال دمج الأبعاد المرتبطة بالمصطلحات التي لها معاني متشابهة. كما أنه يقلل من مشكلة المشتركات اللفظية من خلال إضافة مكونات الكلمات متعددة المعاني التي تشير إلى الاتجاه "الصحيح" إلى مكونات الكلمات التي تشترك في المعنى. وفي المقابل، تميل العناصر التي تشير إلى اتجاهات غير مقصودة إلى الانحسار أو أن تكون أقل أهمية من العناصر التي تشير إلى الاتجاه المقصود.

الاشتقاق

لنفترض أن هي مصفوفة حيث يصف العنصر حدوث المصطلح في الوثيقة (التردد على سبيل المثال). ستبدو المصفوفة كمايلي:

سيكون الصف في هذه المصفوفة الآن متجها يتوافق مع مصطلح ما، مع ذكر علاقته بكل وثيقة:

وبالمثل، سيكون العمود في هذه المصفوفة متجها يتوافق مع مستند ما، مع ذكر علاقته بكل مصطلح:

يعطي حاصل الجداء النقطي بين متجهي مصطلحين معامل الارتباط بين المصطلحات على مجموعة الوثائق.

ويحتوي حاصل ضرب المصفوفات كل حواصل الجداء النقطي. يحتوي العنصر (الذي يساوي العنصر ) حاصل الجداء النقطي:

()

وبالمثل، تحتوي المصفوفة على حاصل الجداء النقطي بين جميع متجهات الوثيقة، ما يعطي ارتباطها بالمصطلحات: .

واستنادا إلى نظرية الجبر الخطي، هنالك تحليل ل بحيث تكون و مصفوفة متعامدة و هي مصفوفة قطرية. وهذا ما يطلق عليه اسم تفريق القيمة المنفردة:

ويصبح حاصل جداء المصفوفة الذي يعطي المصطلح وارتباط المستند:

نظرا لأن و قطريان، نرى أن يجب أن تحتوي على المتجه الذاتي ل ، بينما يجب أن تكون هي المتجهات الذاتية ل . كلا الجدائين لهما نفس القيم الذاتية غير الصفرية، المعطاة من خلال الإدخالات غير الصفرية ل ، أو بالتساوي، من خلال الإدخالات غير الصفرية ل .

سيبدو التحليل الآن كمايلي:

تدعى القيم بالقيم الفردية، و و بالمتجهات المنفردة اليمنى واليسرى. لاحظ أن الجزء الوحيد من الذي يساهم في هو الصف . وليكن اسم متجه الصف هذا . وبالمثل، فإن الجزء الوحيد من الذي يساهم في هو العمود ، . وهي ليست متجهات ذاتية، ولكنها تعتمد على جميع المتجهات الذاتية.

يتضح أنه عند تحديد أكبر قيم منفردة ل ، والمتجهات الفردية المقابلة لها من و ، فسنحصل على تقريب ترتيب رتبة إلى مع أصغر هامش خطأ (قاعدة فروبينوس).

يوفر هذا التقريب الحد الأدنى من الخطأ، مما يسهل التعامل مع المصطلح وتوثيق المتجهات على أنها "فضاء دلالي".

ومن ثم سيحتوي متجه صف "المصطلح" على إدخالات لتربطه إلى فضاء ذي أبعاد أقل.

لا تتعلق هذه الأبعاد الجديدة بأي مفاهيم مفهومة، بل هي مجرد تقريب أقل بعدا للفضاء ذي الأبعاد الأعلى. وبالمثل ، فإن متجه "الوثيقة" هو تقريب في هذا الفضاء ذي الأبعاد الأدنى. نكتب هذا التقريب على النحو التالي:

يمكنك الآن القيام بمايلي:

  • التعرف على كيفية وجود المستندات ذات الصلة و في الفضاء منخفض الأبعاد من خلال مقارنة المتجهات و من خلال (نموذج الفضاء المتجه-تشابه جيب التمام).
  • مقارنة المصطلحين و من خلال مقارنة المتجهين و. لاحظ أن أصبح الآن متجه عمود.
  • يمكن تجميع الوثائق وتمثيلات متجهات المصطلحات باستخدام خوارزميات التجميع التقليدية مثل خوارزمية "k-means" التصنيفية باستخدام مقاييس تشابه جيب التمام.
  • بالنسبة إلى استعلام ما، استعراض الاستعلام كمستند صغير، ومقارنته بالوثائق في الفضاء منخفض الأبعاد.

للقيام بهذا الأخير، يجب عليك أولا ترجمة استعلامك إلى فضاء منخفض الأبعاد، ومن البديهي بعد ذلك أنه يجب عليك استخدام نفس التحويل الذي استخدمته على الوثائق:

لاحظ هنا أنه يمكننا استخلاص معكوس المصفوفة القطرية من خلال عكس كل قيمة غير صفرية داخل المصفوفة.

هذا يعني أنه إذا كان لديك متجه استعلام ، فيجب عليك ترجمة قبل مقارنتها بمتجهات المستند في الفضاء منخفض الأبعاد. يمكنك القيام بنفس الأمر مع المتجهات ذات المدى الزائف:

تطبيقات التحليل الدلالي الكامن

يمكن استخدام الفضاء الجديد ذي الأبعاد المنخفضة في مجموعة متنوعة من التطبيقات، بما في ذلك:

  • مقارنة الوثائق: يمكن استخدام الفضاء ذي الأبعاد المنخفضة لمقارنة الوثائق بناءً على محتوى الكلمات التي تحتوي عليها. يمكن أن يكون هذا مفيدًا في مجموعة متنوعة من التطبيقات، مثل تجميع البيانات وتصنيف الوثائق.
  • البحث عن وثائق مماثلة عبر اللغات: وذلك بعد تحليل مجموعة أساسية من الوثائق المترجمة. يُعرف هذا النوع من البحث باسم استرجاع المعلومات عبر اللغات.
  • علاقة المصطلحات: البحث عن العلاقات بين المصطلحات (المترادفات وتعدد المعاني).
  • استعلام المصطلحات: ترجمتة استعلام المصطلحات إلى فضاء منخفض الأبعاد، والبحث عن المستندات المطابقة (استرجاع المعلومات).
  • التشابه الدلالي: البحث عن أقوى تشابه دلالي بين مجموعات صغيرة من المصطلحات، باستخدام سياق مجموعة المعرفة، مثلما يحدث في نماذج الإجابة على الأسئلة متعددة الخيارات.[4]
  • توسيع فضاءالميزات لأنظمة تعلم الآلة/التنقيب في النصوص.[5]
  • تحليل ارتباط الكلمات في متن النصوص.[6]

تعتبر المرادفات وتعددية المعاني من المشاكل الأساسية في معالجة اللغة الطبيعية:

  • الترادف هو ظاهرة حيث تصف كلمات مختلفة نفس الفكرة. وبالتالي ، قد تفشل الاستعلامات في محرك البحث في استرداد مستند ذي صلة لا يحتوي على الكلمات التي ظهرت في الاستعلام. على سبيل المثال، قد لا يعيد البحث عن "طبيب" مستندًا يحتوي على كلمة "دكتور"، على الرغم من أن الكلمتين لهما نفس المعنى.
  • تعدد المعاني هو الظاهرة التي تحمل فيها الكلمة الواحدة معاني متعددة. لذلك قد يؤدي البحث إلى استرداد مستندات غير ذات صلة تحتوي على الكلمات المطلوبة بالمعنى الخاطئ. على سبيل المثال ، من المحتمل أن يبحث عالم النبات ومبرمجوا الكمبيوتر عن كلمة "شجرة" لأغراض مختلفة.

التطبيقات التجارية

استخدم التحليل الدلالي الكامن للمساعدة في إجراء عمليات بحث عن براءات الاختراع السابقة.[7]

تطبيقات التحليل الدلالي الكامن على الذاكرة البشرية

شاع استخدام التحليل الدلالي الكامن في الذاكرة البشرية، وخاصة في مجالات التذكر الحر والبحث في الذكريات. وبحسب قياسات التحليل الدلالي الكامن، توجد هناك علاقة إيجابية بين التشابه الدلالي لكلمتين واحتمالية استدعاء الكلمات واحدة تلو الأخرى في مهام التذكر الحر باستخدام قوائم أسماء شائعة عشوائية.

ولوحظ أنه في هذه الحالات، كان وقت الاستجابة المتبادل بين الكلمات المتشابهة أسرع بكثير من الوقت بين الكلمات غير المتشابهة. يشار إلى هذه النتائج باسم التأثير الدلالي للقرب.[8]

عندما أخطأ المشاركون في هذه التجربة في تذكر العناصر المدروسة، مالت أخطاؤهم إلى أن تكون عناصر أكثر ارتباطا من الناحية الدلالية بالعنصر المطلوب وموجودة في قائمة مدروسة مسبقا. ويبدو أن اقحام القائمة السابقة هذه، كما أصبحت تسمى، تنافس مع العناصر الموجودة في قائمة التذكر الحالية عند المشاركين.[9]

هنالك نموذج آخر أيضًا في دراسات الذاكرة يسمى فضاءات الارتباط بالكلمات (بالإنجليزية: Word Association Spaces (WAS))‏، من خلال جمع بيانات الارتباط الحر من سلسلة من التجارب والتي تتضمن مقاييس لترابط الكلمات لأكثر من 72,000 زوج من الكلمات المميزة.[10]

التنفيذ

يجري تفريق القيمة المنفردة عادة باستخدام أساليب المصفوفة الكبيرة (خوارزمية لانكزوس) ويمكن أيضا حسابها تدريجيا باستخدام متطلبات موارد حوسبية منخفضة عبر نهج يشبه الشبكة العصبية، والذي لا يتطلب الاحتفاظ بالمصفوفة الكبيرة كاملة الرتبة في الذاكرة.[11]

طورت مؤخرا خوارزمية لتفريق القيمة المنفردة، سريعة وتزايدية وتتطلب موارد ذاكرة منخفضة ومخصصة للمصفوفات الكبيرة.[12] وتتوفر تطبيقات ماتلاب (MATLAB) و بايثون (Python) لهذه الخوارزميات السريعة.

وفرت خوارزمية براند (2003) حلاً دقيقًا على النقيض من التقريب العشوائي الذي اقترحه جوريل وويب (2005). وأحرز تقدم كبير في السنوات الأخير لتقليل التعقيد الحسابي لتفريق القيمة المنفردة. على سبيل المثال وباستخدام خوارزمية (ARPACK) المتوازية لإجراء تفريق قيمة ذاتية متوازية، من الممكن تسريع حساب تفريق القيمة المنفردة مع توفير جودة تنبؤ مماثلة.[13]

المحدودية

  • قد يكون من الصعب تفسير الأبعاد الناتجة. على سبيل المثال:
{(سيارة)، (شاحنة)، (زهرة)} ↦ {(1.3452 * سيارة + 0.2828 * شاحنة), (زهرة)}
(1.3452 * سيارة + 0.2828 * شاحنة) يمكن تفسير المكون على أنه "مركبة". على اي حال، فمن المحتمل جدا أن تحصل الحالات القريبة من
{(سيارة), (زجاجة), (زهرة)} ↦ {(1.3452 * سيارة + 0.2828 * زجاجة), (زهرة)}.

تؤدي هذه النتائج إلى علاقات رياضية يمكن تفسيرها، ولكنها ليست واضحة في اللغة الطبيعية. ومع ذلك، يمكن تفسير المكون (1.3452 * سيارة + 0.2828 * زجاجة) لأن كلا من الزجاجات والسيارات مصنوعة من مواد شفافة وغير شفافة، وهي مصنوعة من قبل الإنسان، ومن المرجح أن تحتوي على شعارات أو كلمات على سطحها..[14] لذلك، يمكن القول أن هذين المفهومين "يشتركان في الدلالات". أي أنه قد لا توجد كلمة واحدة في اللغة المعنية تصفهما تماما، وقد تتطلب عملية التفسير فهمًا أعمق للسياق.

  • يواجه التحليل الدلالي الكامن من صعوبات في قدرته على التفريق بين المعاني المختلفة للكلمة الواحدة. وذلك لأن التحليل الدلالي الكامن يمثل كل كلمة كنقطة واحدة في الفضاء، مما يعني أن كل ظهور للكلمة يعامل على أنه له نفس المعنى. على سبيل المثال، يعتبر التحليل الدلالي الكامن حدوث "كرسي الرئاسة" في وثيقة تحتوي على "رئيس كرسي المجلس" وفي وثيقة منفصلة تحتوي على "صانع الكرسي" هو نفسه.
وهذا يؤدي إلى أن يكون تمثيل المتجه للكلمة متوسطًا لجميع المعاني المختلفة للكلمة في المجموعة، مما قد يجعل من الصعب المقارنة بين الكلمات. ومع ذلك، يمكن أن يقلل تأثير هذه المشكلة إلى حد كبير في حالة الكلمات التي لها معنى سائد في جميع أنحاء المجموعة.
  • نموذج حقيبة الكلمات (BOW) له قيود، حيث أنه يمثل النص كمجموعة غير مرتبة من الكلمات.[15]
  • يفترض التحليل الدلالي الكامن أن الكلمات والوثائق تشكل نموذج توزيع احتمالي طبيعي (توزيع غاوس) مشتركا (فرضية إرغوديك). ومع ذلك، لوحظ أن البيانات المرصودة تتوافق بشكل أفضل مع نموذج توزيع بواسون (قانون بواسون للأعداد الصغيرة).
طور بديل حديث للتحليل الدلالي الكامن، يسمى التحليل الدلالي الكامن الاحتمالي، والذي يستند إلى نموذج متعدد الحدود. يُزعم أن هذا النموذج الجديد يعطي نتائج أفضل من التحليل الدلالي الكامن القياسي.[16]

الطرق البديلة

المراجع

  1. Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.
  2. "The Latent Semantic Indexing home page".
  3. Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5)
  4. Alain Lifchitz؛ Sandra Jhean-Larose؛ Guy Denhière (2009). "Effect of tuned parameters on an LSA multiple choice questions answering model" (PDF). Behavior Research Methods. ج. 41 ع. 4: 1201–1209. arXiv:0811.0146. DOI:10.3758/BRM.41.4.1201. PMID:19897829. S2CID:480826.
  5. Ramiro H. Gálvez؛ Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. ج. 19: 1877–7503. DOI:10.1016/j.jocs.2017.01.001.
  6. Altszyler, E.؛ Ribeiro, S.؛ Sigman, M.؛ Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. ج. 56: 178–187. arXiv:1610.01520. DOI:10.1016/j.concog.2017.09.004. PMID:28943127. S2CID:195347873.
  7. Gerry J. Elman (أكتوبر 2007). "Automated Patent Examination Support - A proposal". Biotechnology Law Report. ج. 26 ع. 5: 435–436. DOI:10.1089/blr.2007.9896.
  8. Marc W. Howard؛ Michael J. Kahana (1999). "Contextual Variability and Serial Position Effects in Free Recall" (PDF). {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  9. Franklin M. Zaromb؛ وآخرون (2006). Temporal Associations and Prior-List Intrusions in Free Recall (PDF). Interspeech'2005.
  10. Nelson، Douglas. "The University of South Florida Word Association, Rhyme and Word Fragment Norms". اطلع عليه بتاريخ 2011-05-08.
  11. Geneviève Gorrell؛ Brandyn Webb (2005). "Generalized Hebbian Algorithm for Latent Semantic Analysis" (PDF). Interspeech'2005. مؤرشف من الأصل (PDF) في 2008-12-21.
  12. Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition" (PDF). Linear Algebra and Its Applications. ج. 415: 20–30. DOI:10.1016/j.laa.2005.07.021.
  13. Ding، Yaguang؛ Zhu، Guofeng؛ Cui، Chenyang؛ Zhou، Jian؛ Tao، Liang (2011). "A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK". Proceedings of 2011 International Conference on Computer Science and Network Technology. ص. 739–741. DOI:10.1109/ICCSNT.2011.6182070. ISBN:978-1-4577-1587-7. S2CID:15281129.
  14. Deerwester، Scott؛ Dumais، Susan T.؛ Furnas، George W.؛ Landauer، Thomas K.؛ Harshman، Richard (1990). "Indexing by latent semantic analysis". Journal of the American Society for Information Science. ج. 41 ع. 6: 391–407. CiteSeerX:10.1.1.108.8490. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
  15. Abedi، Vida؛ Yeasin، Mohammed؛ Zand، Ramin (27 نوفمبر 2014). "Empirical study using network of semantically related associations in bridging the knowledge gap". Journal of Translational Medicine. ج. 12 ع. 1: 324. DOI:10.1186/s12967-014-0324-9. PMC:4252998. PMID:25428570.
  16. Thomas Hofmann (1999). "Probabilistic Latent Semantic Analysis". Uncertainty in Artificial Intelligence. arXiv:1301.6705.