التحليل الدلالي الكامن

التحليل الدلالي الكامن هو تقنية في معالجة اللغة الطبيعية -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها.
التحليل الدلالي الكامن - مشهد تخيلي مولد باستخدام الذكاء الصنعي.
التحليل الدلالي الكامن - مشهد تخيلي مولد باستخدام الذكاء الصنعي.

التحليل الدلالي الكامن (بالإنجليزية: Latent semantic analysis (LSA))‏ هو تقنية في معالجة اللغة الطبيعية (بالإنجليزية: Natural Language Processing (NLP))‏ -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها. يقوم التحليل الدلالي الكامن بإنشاء مجموعة من المفاهيم -الميزات الكامنة- والتي تعكس المعنى المشترك بين هذه الوثائق والمصطلحات.

يفترض التحليل الدلالي الكامن أن الكلمات ذات المعنى المماثل ستظهر في أجزاء مماثلة من النص (الدلالات التوزيعية). ويستند هذا الافتراض إلى فكرة أن الكلمات ذات المعنى المماثل تميل إلى أن تستخدم في سياقات مماثلة.

تُبنى مصفوفة من نصوص هذه الوثائق تحتوي على عدد الكلمات في كل وثيقة، حيث تمثل الصفوف الكلمات الفريدة وتشير الأعمدة إلى كل وثيقة. وتستخدم في هذا التحليل تقنية رياضية تُعرف باسم تفريق القيمة المنفردة (SVD) لتقليل عدد الصفوف مع الحفاظ على هيكل التشابه بين الأعمدة.

تُقارن هذه الوثائق بعد ذلك بناءً على تشابه جيب التمام بين أي عمودين. فكلما اقتربت قيمة التشابه من 1 زادت درجة التشابه بين الوثائق، والعكس صحيح.[1]

حصل كل من سكوت ديرويستر وسوزان دومايس وجورج فورناس وريتشارد هارشمان وتوماس لانداور وكارين لوشبوم ولين ستريتر على براءة اختراع تقنية استرجاع المعلومات باستخدام هيكل التحليل الدلالي الكامن في عام 1988 (براءة اختراع أمريكية رقم 4,839,853 منتهية الصلاحية الآن).

يطلق على التحليل الدلالي الكامن في سياق تطبيقه على استرجاع المعلومات اسم الفهرسة الدلالية الكامنة (بالإنجليزية: (LSI) latent semantic indexing)‏ أحيانًا.[2]

نظرة عامة

مصفوفة الحدوث

يمكن للتحليل الدلالي الكامن استخدام مصفوفة الوثائق والمصطلحات وهي مصفوفة رياضية تصف تكرار المصطلحات في مجموعة من الوثائق، وهي مصفوفة متفرقة (متناثرة) تتناغم صفوفها مع المصطلحات وأعمدتها مع الوثائق.

يعتبر "تردد المصطلح - تردد الوثيقة المعكوس" من الأمثلة النموذجية على توزيع عناصر المصفوفة: يتناسب وزن عنصر ما في المصفوفة مع عدد مرات ظهور المصطلحات في كل وثيقة، حيث ترفع أوزان المصطلحات النادرة لتعكس أهميتها النسبية.

تعتبر هذه المصفوفة شائعة أيضًا في النماذج اللفظية القياسية، على الرغم من أنه ليس من الضروري أن تُعبَّر كمصفوفة صراحة، نظرًا لأن الخصائص الرياضية للمصفوفات لا تستخدم فيها دائمًا.

خفض الرتبة

يجد التحليل الدلالي الكامن بعد إنشاء مصفوفة التكرار تقريبًا مُنخفض الرتبة لمصفوفة المصطلحات-المستندات.[3] ويُعزى ذلك لأسباب مختلفة لهذه التقريبات:

  • يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية كبيرة جدًا بالنسبة لموارد الحوسبة ؛ وتُفسر مصفوفة الرتبة المنخفضة في هذه الحالة بتقدير تقريبي (أقل شر ضروري).
  • يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية مشوشة: على سبيل المثال، يجب إزالة الحالات القصصية للمصطلحات. وتُفسر المصفوفة المقدرة كمصفوفة خالية من التشويش (مصفوفة أفضل من المصفوفة الأصلية).
  • يُفترض أن مصفوفة المصطلحات-المستندات الأصلية متفرقة للغاية بالنسبة إلى مصفوفة المصطلحات-المستندات "الحقيقية". وهذا يعني أن المصفوفة الأصلية تسرد فقط الكلمات الموجودة بالفعل في كل مستند، بينما أننا قد نكون مهتمين بجميع الكلمات المتعلقة بكل مستند - وهي مجموعة أكبر بكثير عموما بسبب الترادفات في المعاني.

يؤدي خفض الرتبة إلى دمج بعض الأبعاد وجعلها تعتمد على أكثر من مصطلح واحد.

على سبيل المثال، يمكن أن يتحول التسلسل التالي:

{(سيارة) ، (شاحنة) ، (زهرة)} إلى

{(1.3452 * سيارة + 0.2828 * شاحنة) ، (زهرة)}

يساعد خفض الرتبة على حل مشكلة تحديد المترادفات من خلال دمج الأبعاد المرتبطة بالمصطلحات التي لها معاني متشابهة. كما أنه يقلل من مشكلة المشتركات اللفظية من خلال إضافة مكونات الكلمات متعددة المعاني التي تشير إلى الاتجاه "الصحيح" إلى مكونات الكلمات التي تشترك في المعنى. وفي المقابل، تميل العناصر التي تشير إلى اتجاهات غير مقصودة إلى الانحسار أو أن تكون أقل أهمية من العناصر التي تشير إلى الاتجاه المقصود.

الاشتقاق

لنفترض أن هي مصفوفة حيث يصف العنصر حدوث المصطلح في الوثيقة (التردد على سبيل المثال). ستبدو المصفوفة كمايلي:

سيكون الصف في هذه المصفوفة الآن متجها يتوافق مع مصطلح ما، مع ذكر علاقته بكل وثيقة:

وبالمثل، سيكون العمود في هذه المصفوفة متجها يتوافق مع مستند ما، مع ذكر علاقته بكل مصطلح:

يعطي حاصل الجداء النقطي بين متجهي مصطلحين معامل الارتباط بين المصطلحات على مجموعة الوثائق.

ويحتوي حاصل ضرب المصفوفات كل حواصل الجداء النقطي. يحتوي العنصر (الذي يساوي العنصر ) حاصل الجداء النقطي:

()

وبالمثل، تحتوي المصفوفة على حاصل الجداء النقطي بين جميع متجهات الوثيقة، ما يعطي ارتباطها بالمصطلحات: .

واستنادا إلى نظرية الجبر الخطي، هنالك تحليل ل بحيث تكون و مصفوفة متعامدة و هي مصفوفة قطرية. وهذا ما يطلق عليه اسم تفريق القيمة المنفردة:

ويصبح حاصل جداء المصفوفة الذي يعطي المصطلح وارتباط المستند:

نظرا لأن و قطريان، نرى أن يجب أن تحتوي على المتجه الذاتي ل ، بينما يجب أن تكون هي المتجهات الذاتية ل . كلا الجدائين لهما نفس القيم الذاتية غير الصفرية، المعطاة من خلال الإدخالات غير الصفرية ل ، أو بالتساوي، من خلال الإدخالات غير الصفرية ل .

سيبدو التحليل الآن كمايلي:

تدعى القيم بالقيم الفردية، و و بالمتجهات المنفردة اليمنى واليسرى. لاحظ أن الجزء الوحيد من الذي يساهم في هو الصف . وليكن اسم متجه الصف هذا . وبالمثل، فإن الجزء الوحيد من الذي يساهم في هو العمود ، . وهي ليست متجهات ذاتية، ولكنها تعتمد على جميع المتجهات الذاتية.

يتضح أنه عند تحديد أكبر قيم منفردة ل ، والمتجهات الفردية المقابلة لها من و ، فسنحصل على تقريب ترتيب رتبة إلى مع أصغر هامش خطأ (قاعدة فروبينوس).

يوفر هذا التقريب الحد الأدنى من الخطأ، مما يسهل التعامل مع المصطلح وتوثيق المتجهات على أنها "فضاء دلالي".

ومن ثم سيحتوي متجه صف "المصطلح" على إدخالات لتربطه إلى فضاء ذي أبعاد أقل.

لا تتعلق هذه الأبعاد الجديدة بأي مفاهيم مفهومة، بل هي مجرد تقريب أقل بعدا للفضاء ذي الأبعاد الأعلى. وبالمثل ، فإن متجه "الوثيقة" هو تقريب في هذا الفضاء ذي الأبعاد الأدنى. نكتب هذا التقريب على النحو التالي:

يمكنك الآن القيام بمايلي:

  • التعرف على كيفية وجود المستندات ذات الصلة و في الفضاء منخفض الأبعاد من خلال مقارنة المتجهات و من خلال (نموذج الفضاء المتجه-تشابه جيب التمام).
  • مقارنة المصطلحين و من خلال مقارنة المتجهين و. لاحظ أن أصبح الآن متجه عمود.
  • يمكن تجميع الوثائق وتمثيلات متجهات المصطلحات باستخدام خوارزميات التجميع التقليدية مثل خوارزمية "k-means" التصنيفية باستخدام مقاييس تشابه جيب التمام.
  • بالنسبة إلى استعلام ما، استعراض الاستعلام كمستند صغير، ومقارنته بالوثائق في الفضاء منخفض الأبعاد.

للقيام بهذا الأخير، يجب عليك أولا ترجمة استعلامك إلى فضاء منخفض الأبعاد، ومن البديهي بعد ذلك أنه يجب عليك استخدام نفس التحويل الذي استخدمته على الوثائق:

لاحظ هنا أنه يمكننا استخلاص معكوس المصفوفة القطرية من خلال عكس كل قيمة غير صفرية داخل المصفوفة.

هذا يعني أنه إذا كان لديك متجه استعلام ، فيجب عليك ترجمة قبل مقارنتها بمتجهات المستند في الفضاء منخفض الأبعاد. يمكنك القيام بنفس الأمر مع المتجهات ذات المدى الزائف:

تطبيقات التحليل الدلالي الكامن

يمكن استخدام الفضاء الجديد ذي الأبعاد المنخفضة في مجموعة متنوعة من التطبيقات، بما في ذلك:

  • مقارنة الوثائق: يمكن استخدام الفضاء ذي الأبعاد المنخفضة لمقارنة الوثائق بناءً على محتوى الكلمات التي تحتوي عليها. يمكن أن يكون هذا مفيدًا في مجموعة متنوعة من التطبيقات، مثل تجميع البيانات وتصنيف الوثائق.
  • البحث عن وثائق مماثلة عبر اللغات: وذلك بعد تحليل مجموعة أساسية من الوثائق المترجمة. يُعرف هذا النوع من البحث باسم استرجاع المعلومات عبر اللغات.
  • علاقة المصطلحات: البحث عن العلاقات بين المصطلحات (المترادفات وتعدد المعاني).
  • استعلام المصطلحات: ترجمتة استعلام المصطلحات إلى فضاء منخفض الأبعاد، والبحث عن المستندات المطابقة (استرجاع المعلومات).
  • التشابه الدلالي: البحث عن أقوى تشابه دلالي بين مجموعات صغيرة من المصطلحات، باستخدام سياق مجموعة المعرفة، مثلما يحدث في نماذج الإجابة على الأسئلة متعددة الخيارات.[4]
  • توسيع فضاءالميزات لأنظمة تعلم الآلة/التنقيب في النصوص.[5]
  • تحليل ارتباط الكلمات في متن النصوص.[6]

تعتبر المرادفات وتعددية المعاني من المشاكل الأساسية في معالجة اللغة الطبيعية:

  • الترادف هو ظاهرة حيث تصف كلمات مختلفة نفس الفكرة. وبالتالي ، قد تفشل الاستعلامات في محرك البحث في استرداد مستند ذي صلة لا يحتوي على الكلمات التي ظهرت في الاستعلام. على سبيل المثال، قد لا يعيد البحث عن "طبيب" مستندًا يحتوي على كلمة "دكتور"، على الرغم من أن الكلمتين لهما نفس المعنى.
  • تعدد المعاني هو الظاهرة التي تحمل فيها الكلمة الواحدة معاني متعددة. لذلك قد يؤدي البحث إلى استرداد مستندات غير ذات صلة تحتوي على الكلمات المطلوبة بالمعنى الخاطئ. على سبيل المثال ، من المحتمل أن يبحث عالم النبات ومبرمجوا الكمبيوتر عن كلمة "شجرة" لأغراض مختلفة.

التطبيقات التجارية

استخدم التحليل الدلالي الكامن للمساعدة في إجراء عمليات بحث عن براءات الاختراع السابقة.[7]

تطبيقات التحليل الدلالي الكامن على الذاكرة البشرية

شاع استخدام التحليل الدلالي الكامن في الذاكرة البشرية، وخاصة في مجالات التذكر الحر والبحث في الذكريات. وبحسب قياسات التحليل الدلالي الكامن، توجد هناك علاقة إيجابية بين التشابه الدلالي لكلمتين واحتمالية استدعاء الكلمات واحدة تلو الأخرى في مهام التذكر الحر باستخدام قوائم أسماء شائعة عشوائية.

ولوحظ أنه في هذه الحالات، كان وقت الاستجابة المتبادل بين الكلمات المتشابهة أسرع بكثير من الوقت بين الكلمات غير المتشابهة. يشار إلى هذه النتائج باسم التأثير الدلالي للقرب.[8]

عندما أخطأ المشاركون في هذه التجربة في تذكر العناصر المدروسة، مالت أخطاؤهم إلى أن تكون عناصر أكثر ارتباطا من الناحية الدلالية بالعنصر المطلوب وموجودة في قائمة مدروسة مسبقا. ويبدو أن اقحام القائمة السابقة هذه، كما أصبحت تسمى، تنافس مع العناصر الموجودة في قائمة التذكر الحالية عند المشاركين.[9]

هنالك نموذج آخر أيضًا في دراسات الذاكرة يسمى فضاءات الارتباط بالكلمات (بالإنجليزية: Word Association Spaces (WAS))‏، من خلال جمع بيانات الارتباط الحر من سلسلة من التجارب والتي تتضمن مقاييس لترابط الكلمات لأكثر من 72,000 زوج من الكلمات المميزة.[10]

التنفيذ

يجري تفريق القيمة المنفردة عادة باستخدام أساليب المصفوفة الكبيرة (خوارزمية لانكزوس) ويمكن أيضا حسابها تدريجيا باستخدام متطلبات موارد حوسبية منخفضة عبر نهج يشبه الشبكة العصبية، والذي لا يتطلب الاحتفاظ بالمصفوفة الكبيرة كاملة الرتبة في الذاكرة.[11]

طورت مؤخرا خوارزمية لتفريق القيمة المنفردة، سريعة وتزايدية وتتطلب موارد ذاكرة منخفضة ومخصصة للمصفوفات الكبيرة.[12] وتتوفر تطبيقات ماتلاب (MATLAB) و بايثون (Python) لهذه الخوارزميات السريعة.

وفرت خوارزمية براند (2003) حلاً دقيقًا على النقيض من التقريب العشوائي الذي اقترحه جوريل وويب (2005). وأحرز تقدم كبير في السنوات الأخير لتقليل التعقيد الحسابي لتفريق القيمة المنفردة. على سبيل المثال وباستخدام خوارزمية (ARPACK) المتوازية لإجراء تفريق قيمة ذاتية متوازية، من الممكن تسريع حساب تفريق القيمة المنفردة مع توفير جودة تنبؤ مماثلة.[13]

المحدودية

  • قد يكون من الصعب تفسير الأبعاد الناتجة. على سبيل المثال:
{(سيارة)، (شاحنة)، (زهرة)} ↦ {(1.3452 * سيارة + 0.2828 * شاحنة), (زهرة)}
(1.3452 * سيارة + 0.2828 * شاحنة) يمكن تفسير المكون على أنه "مركبة". على اي حال، فمن المحتمل جدا أن تحصل الحالات القريبة من
{(سيارة), (زجاجة), (زهرة)} ↦ {(1.3452 * سيارة + 0.2828 * زجاجة), (زهرة)}.

تؤدي هذه النتائج إلى علاقات رياضية يمكن تفسيرها، ولكنها ليست واضحة في اللغة الطبيعية. ومع ذلك، يمكن تفسير المكون (1.3452 * سيارة + 0.2828 * زجاجة) لأن كلا من الزجاجات والسيارات مصنوعة من مواد شفافة وغير شفافة، وهي مصنوعة من قبل الإنسان، ومن المرجح أن تحتوي على شعارات أو كلمات على سطحها..[14] لذلك، يمكن القول أن هذين المفهومين "يشتركان في الدلالات". أي أنه قد لا توجد كلمة واحدة في اللغة المعنية تصفهما تماما، وقد تتطلب عملية التفسير فهمًا أعمق للسياق.

  • يواجه التحليل الدلالي الكامن من صعوبات في قدرته على التفريق بين المعاني المختلفة للكلمة الواحدة. وذلك لأن التحليل الدلالي الكامن يمثل كل كلمة كنقطة واحدة في الفضاء، مما يعني أن كل ظهور للكلمة يعامل على أنه له نفس المعنى. على سبيل المثال، يعتبر التحليل الدلالي الكامن حدوث "كرسي الرئاسة" في وثيقة تحتوي على "رئيس كرسي المجلس" وفي وثيقة منفصلة تحتوي على "صانع الكرسي" هو نفسه.
وهذا يؤدي إلى أن يكون تمثيل المتجه للكلمة متوسطًا لجميع المعاني المختلفة للكلمة في المجموعة، مما قد يجعل من الصعب المقارنة بين الكلمات. ومع ذلك، يمكن أن يقلل تأثير هذه المشكلة إلى حد كبير في حالة الكلمات التي لها معنى سائد في جميع أنحاء المجموعة.
  • نموذج حقيبة الكلمات (BOW) له قيود، حيث أنه يمثل النص كمجموعة غير مرتبة من الكلمات.[15]
  • يفترض التحليل الدلالي الكامن أن الكلمات والوثائق تشكل نموذج توزيع احتمالي طبيعي (توزيع غاوس) مشتركا (فرضية إرغوديك). ومع ذلك، لوحظ أن البيانات المرصودة تتوافق بشكل أفضل مع نموذج توزيع بواسون (قانون بواسون للأعداد الصغيرة).
طور بديل حديث للتحليل الدلالي الكامن، يسمى التحليل الدلالي الكامن الاحتمالي، والذي يستند إلى نموذج متعدد الحدود. يُزعم أن هذا النموذج الجديد يعطي نتائج أفضل من التحليل الدلالي الكامن القياسي.[16]

الطرق البديلة

التجزئة الدلالية

تربط الوثائق في التجزئة الدلالية إلى عناوين الذاكرة بواسطة شبكة عصبية ربطا يجعل الوثائق المتشابهة دلالياً قريبة من بعضها البعض. تقوم الشبكة العصبية العميقة بإنشاء نموذج رسومي لمتجهات عدد الكلمات المستمدة من مجموعة كبيرة من الوثائق.

يمكن بعد ذلك العثور على الوثائق المماثلة لمستند الاستعلام ببساطة عن طريق الوصول إلى جميع العناوين التي تختلف عن عنوان مستند الاستعلام ببضعة بتات فقط. تعتبر هذه الطريقة التي تعتمد على توسيع كفاءة الترميز المتجانس للتقريب المطابق أسرع بكثير من التجزئة الحساسة للموقع، وهي أسرع طريقة حالية.

الفهرسة الدلالية الكامنة

الفهرسة الدلالية الكامنة (بالإنجليزية: Latent semantic indexing (LSI))‏ هي طريقة للفهرسة والاسترداد تستخدم تقنية رياضية تسمى تفريق القيمة المنفردة لتحديد الأنماط في العلاقات بين المصطلحات والمفاهيم الموجودة في مجموعة غير مهيكلة من النصوص.

تستند الفهرسة الدلالية الكامنة على مبدأ أن الكلمات المستخدمة في نفس السياقات تميل إلى أن تكون ذات معانٍ متشابهة. وتتمثل الميزة الرئيسة للفهرسة الدلالية الكامنة في قدرتها على استخراج المحتوى المفاهيمي لنص معين من خلال إنشاء ارتباطات بين تلك المصطلحات التي تظهر في سياقات متشابهة.[17]

تُعدُّ الفهرسة الدلالية الكامنة تطبيقًا آخر لتحليل المراسلات، وهي تقنية إحصائية متعددة المتغيرات طورها جان بول بينزكري في أوائل سبعينيات القرن الماضي.[18]

أطلق عليه اسم "الفهرسة الدلالية الكامنة" بسبب قدرته على ربط المصطلحات ذات الصلة الدلالية التي لا تظهر ظهورًا مباشرا في مجموعة من النصوص، وقد طبق لأول مرة على النصوص في شركة بيلكور أواخر الثمانينيات.

كما أن الطريقة المسماة أيضًا بالتحليل الدلالي الكامن (LSA)، تكشف عن الهيكل الدلالي الكامن الأساسي في استخدام الكلمات في مجموعة من النصوص وكيف يمكن استخدامها لاستخراج معنى النص استجابةً لاستفسارات المستخدم، والتي يشار إليها عادةً بالبحث عن المفاهيم.

سترجع الاستفسارات أو عمليات البحث عن المفاهيم على مجموعة من المستندات التي خضعت للفهرسة الدلالية الكامنة نتائج متشابهة مفهوميًا في المعنى مع معايير البحث حتى لو لم تشارك النتائج كلمة أو كلمات محددة مع معايير البحث.

فوائد الفهرسة الدلالية الكامنة

تساعد الفهرسة الدلالية الكامنة في التغلب على الترادفات بزيادة دقة استرجاع المعلومات، وهو أحد أكثر القيود إشكالية في استعلامات الكلمات الرئيسية المنطقية ونماذج الفضاء المتجهي.[14] يحدث الترادف عندما يكون لكلمة أو عبارة أكثر من معنى واحد، مما قد يؤدي إلى عدم التطابق بين المفردات التي استخدمها مؤلفوا الوثائق ومستخدموا أنظمة استرجاع المعلومات. وقد تؤدي الاستعلامات المنطقية أو الكلمات الرئيسية نتيجة لذلك إلى نتائج غير ذات صلة أو إلى فقدان معلومات ذات صلة.[19]

تستخدم الفهرسة الدلالية الكامنة أيضًا في تصنيف المستندات تلقائيًا. وقد أظهرت العديد من التجارب أن هناك بعض أوجه التشابه بين الطريقة التي تعالج بها الفهرسة الدلالية الكامنة والبشر النص وآلية تصنيفه.

تصنيف المستندات هو عملية تخصيص المستندات إلى فئة واحدة أو أكثر محددة مسبقًا بناءً على تشابهها مع المحتوى المفاهيمي للفئات. تستخدم الفهرسة الدلالية الكامنة أمثلة على المستندات لإنشاء الأساس المفاهيمي لكل فئة.

تقارن المفاهيم الواردة في الوثائق أثناء عملية التصنيف بالمفاهيم الواردة في أمثلة الوثائق. وتُعين فئة (أو فئات) للوثائق بناءً على أوجه التشابه بين المفاهيم التي تحتوي عليها والمفاهيم المضمنة في أمثلة الوثائق.

يمكن أيضًا تحقيق التجميع الديناميكي المستند إلى المحتوى المفاهيمي للوثائق باستخدام الفهرسة الدلالية الكامنة. وهو عملية ربط المستندات بناءً على تشابهها المفاهيمي، دون استخدام أمثلة للوثائق لإنشاء الأساس المفاهيمي لكل مجموعة. يعتبر التجميع الديناميكي مفيدًا جدًا عند التعامل مع مجموعة غير معروفة من النصوص العشوائية.

تعتمد الفهرسة الدلالية الكامنة في جوهرها على استقلالها عن اللغة، وذلك بفضل استخدامها لنهج رياضي صارم. هذا يعني أنها يمكنها استخلاص المحتوى الدلالي للمعلومات المكتوبة بأي لغة، دون الحاجة إلى استخدام هياكل إضافية مثل القواميس أوالمراجع.

كما يمكن للفهرسة الدلالية الكامنة أداء البحث عن المفاهيم عبر اللغات والتصنيف بناءا على الأمثلة. على سبيل المثال، يمكن إجراء استعلام بلغة واحدة، مثل الإنجليزية، وسترجع نتائج مماثلة من الناحية المفاهيمية حتى إذا كانت مكتوبة بلغة مختلفة تمامًا أو بلغات متعددة.

الفهرسة الدلالية الكامنة هي تقنية تحليلية يمكنها فهم معنى النص، وليس مجرد مطابقة الكلمات. يمكن استخدامها لمعالجة أي كائن يمكن التعبير عنه كنص، بما في ذلك سلاسل الأحرف الاعتباطية.

على سبيل المثال، أظهرت الاختبارات باستخدام ملخصات ميدلاين أن الفهرسة الدلالية الكامنة يمكنها أن تصنف الجينات تصنيفا فعالا. وذلك لأنها يمكنها فهم المعلومات البيولوجية المحتواة في عناوين وملخصات الاستشهادات في ميدلاين، مثل الوظائف البيولوجية للجين وتفاعلاته مع الجينات الأخرى.[20]

تتكيف الفهرسة الدلالية الكامنة تلقائيًا مع المصطلحات الجديدة والمتغيرة، كما أنها متسامحة مع الضوضاء، مثل الأخطاء الإملائية والمطبعية والرموز غير القابلة للقراءة. هذا يجعلها تقنية مفيدة لتطبيقات التعرف الضوئي على الحروف (OCR) وتحويل النص إلى كلام. بالإضافة إلى ذلك، يمكن استخدام الفهرسة الدلالية الكامنة بفعالية مع البيانات المتفرقة والغامضة والمتناقضة.[21]

الفهرسة الدلالية الكامنة هي تقنية قوية يمكن استخدامها لتحليل وفهم معنى النص. ولا تتطلب هذه التقنية أن يكون النص مكتوباً بصيغة جملة، بل يمكن أن تعمل مع مجموعة متنوعة من التنسيقات النصية، بما في ذلك القوائم والملاحظات والبريد الإلكتروني والمحتوى القائم على الويب.

يمكن استخدام الفهرسة الدلالية الكامنة لتحديد الأنماط في العلاقات بين المصطلحات والمفاهيم الهامة الموجودة في النصوص طالما أن مجموعة النصوص هذه تحتوي على مصطلحات متعددة.

أثبتت الفهرسة الدلالية الكامنة أنها حل مفيد للعديد من مشاكل المطابقة المفاهيمية..[22][23] وقد ثبت أن هذه التقنية تلتقط المعلومات الرئيسية للعلاقة، بما في ذلك المعلومات السببية والموجهة نحو الهدف والمعلومات التصنيفية.[24]

التسلسل الزمني للفهرسة الدلالية الكامنة

منتصف الستينيات -وصف واختبار تقنية تحليل العوامل لأول مرة (هـ. بوركو وم. بيرنيك)

  • 1988 - نُشرت ورقة رئيسية حول تقنية الفهرسة الدلالية الكامنة.[17]
  • 1989 - أول براءة اختراع.[17]
  • 1992 - أول استخدام لتقنية الفهرسة الدلالية الكامنة لتعيين المقالات للمراجعين.[25]
  • 1994 - منح براءة الاختراع للتطبيق العابر للغات القائم على تقنية الفهرسة الدلالية الكامنة (لانداور وآخرون).
  • 1995 - أول استخدام لتقنية الفهرسة الدلالية الكامنة في تقدير الأطروحات (فولتز وآخرون، لانداور وآخرون).
  • 1999 - أول تنفيذ لتقنية الفهرسة الدلالية الكامنة لصالح المجتمع الاستخباراتي لتحليل النصوص غير المهيكلة (SAIC).
  • 2002 - تقديم منتج يعتمد على الفهرسة الدلالية الكامنة للوكالات الحكومية ذات الطابع الاستخباراتي (SAIC).

رياضيات الفهرسة الدلالية الكامنة

تستخدم الفهرسة الدلالية الكامنة تقنيات الجبر الخطي الشائعة لتعلم الترابطات المفاهيمية في مجموعة من النصوص. تتضمن العملية عموما بناء مصفوفة مصطلح-مستند مرجحة، وتنفيذ تفريق القيم المنفردة (Singular Value Decomposition) على المصفوفة، واستخدام المصفوفة لتحديد المفاهيم الموجودة في النص.

مصفوفة المصطلح-الوثيقة

تبدأ الفهرسة الدلالية الكامنة ببناء مصفوفة المستند-المصطلح، ، لتحديد تكرار المصطلحات الفريدة في مجموعة الوثائق. في مصفوفة المصطلح-الوثيقة، يمثل كل مصطلح بصف, وكل وثيقة تمثل بعمود، وكل خلية من خلايا المصفوفة، ، ثمثل في البداية عدد المرات التي يظهر فيها المصطلح المرتبط في الوثيقة المشار إليها، . عادة ما تكون هذه المصفوفة كبيرة جدًا ومتناثرة.

وبمجرد بناء مصفوفة الصطلح-الوثيقة، يمكن تطبيق وظائف الترجيح المحلية والعمومية عليها لتكييف البيانات. تقوم دوال الترجيح بتحويل كل خلية، من ، إلى حاصل ضرب وزن مصطلح محلي، ، الذي يصف التكرار النسبي للمصطلح في الوثيقة، والوزن الشامل، ، الذي يصف التكرار النسبي للمصطلح ضمن مجموعة الوثائق كاملة.

بعض الوظائف المحلية الشائعة للترجيح محددة في الجدول التالي:[26]

ثنائي if the term exists in the document, or else
تردد المصطلح , the number of occurrences of term in document
الخوارزمية
التطبيع المضاف

بعض الوظائف العمومية الشائعة للترجيح محددة في الجدول التالي:

ثنائي
عادي
الوزن الدلالي , where is the total number of times term occurs in the whole collection, and is the number of documents in which term occurs.
تردد المصطلح-معكوس تردد الوثيقة
العشوائية , where

تشير الدراسات التجريبية على الفهرسة الدلالية الكامنة إلى أن وظائف ترجيح السجل والإنتروبيا(الإنتروبيا هي مقياس لعشوائية نظام) تعمل جيدا، من الناحية العملية، مع العديد من مجموعات البيانات.[27] بمعنى آخر، يحسب كل إدخال من على النحو التالي:

تصنيف تفريق القيمة المنفردة المخفض

يجرى تفريق القيمة المنفردة بترتيب مخفض على المصفوفة لتحديد أنماط العلاقات بين المصطلحات والمفاهيم الواردة في النص. يشكل تفريق القيمة المنفردة أساس الفهرسة الدلالية الكامنة.[28]

فهو يحسب الفضاءات المتجهية للمصطلحات والوثائق بتقريب مصفوفة تردد المصطلح الواحد ، إلى ثلاثة مصفوفات— m بحجم r الفضاء المتجهي لمفهوم المصطلح ، r بحجم r مصفوفة القيم المنفردة ، و n بحج r الفضاء المتجهي لمفهوم الوثيقة، ، والتي تحقق العلاقات التالية:

تمثل A مصفوفة مرجحة من عدد m من المصطلحات الفريدة في مجموعة من النصوص ذات عدد n من الوثائق. تمثل T مصفوفة من متجهات المصطلحات حيث يمثل r رتبة A - مقياس لأبعادها الفريدة ≤ min(m,n). تمثل S مصفوفة قطرية من القيم المفردة المتناقصة، وتمثل D مصفوفة من متجهات المستندات.

في هذه الصيغة، تمثل A مصفوفة مرجحة m من عدد n من تردد المصطلح في مجموعة من النصوص حيث m عدد المصطلحات الفريدة، و n هي عدد الوثائق. T تحسب m من خلال r مصفوفة متجهات المصطلح حيث r هي ترتيب A—مقياس لأبعاده الفريدة ≤ min(m,n). S تحسب r من خلال r مصفوفة قطرية من القيم المنفردة المتناقصة، و D تحسب n من خلال r مصفوفة متجهات الوثيقة.

يقتطع بعد ذلك تفريق القيمة المنفردة لتقليل الترتيب من خلال الاحتفاظ بأكبر إدخالات قطرية فقط k' « r في مصفوفة القيمة المفردة S ، حيث يكون 'k' عادةً بالترتيب من 100 إلى 300 بُعد . تقلل هذه العملية أحجام مصفوفة المتجهات والمصطلح إلى 'm بمقدار k و n بمقدار ك' على التوالي. إن لعملية تفريق القيمة المنفردة إلى جانب هذا التخفيض تأثير في الحفاظ على المعلومات الدلالية ذات الأهمية في النص مع تقليل الضوضاء وغيرها من الشوائب غير المرغوب فيها في الفضاء الأصلي لـ A. وغالبًا ما يُشار إلى هذه المجموعة المخفضة من المصفوفات بصيغة معدلة مثل:

A ≈ Ak = Tk Sk DkT

تحسب خوارزميات الفهرسة الدلالية الكامنة الفعالة القيم الأولى المفردة فقط 'k ومتجهات المصطلحات والوثائق عوضا عن حساب ملف تفريق القيمة المنفردة كاملا ومن ثم اقتطاعه.

لاحظ أن هذه العملية لتخفيض الرتب هي في الأساس نفس عملية إجراء تحليل العنصر الرئيسي (PCA) على المصفوفة A، باستثناء أن تحليل العنصر الرئيسي يطرح المتوسطات، وأنه يفقد آلية تفريغ المصفوفة A، ما يجعله غير قابل للتطبيق للمعاجم الكبيرة.

الاستعلام عن الفضاء المتجهي للفهرس الدلالي الكامن وتعزيزه

تحدد المصفوفات Tk و Dk المحسوبة الفضاءات المتجهية للمصطلح والمستند، والتي والتي تجسد المعلومات المفاهيمية من خلال القيم المفردة المحسوبة، Sk، والمستمدة من مجموعة الوثائق. إن تشابه المصطلحات أو الوثائق داخل هذه الفضاءات هو العامل الذي يحدد مدى قربها من بعضها البعض في هذه الفضاءات، ويحسب عادةُ كدالة للزاوية بين المتجهات المقابلة.

تستخدم نفس الخطوات لتحديد المتجهات التي تمثل نص الاستعلامات والوثائق الجديدة داخل فضاء المستند الخاص بالفهرس الدلالي الكامن الموجود. من خلال تحويل بسيط للمعادلة A = T S DT إلى ما معادلة تعادلها D = AT T S−1 يمكن إنشاء متجه جديد، 'd، لاستعلام أو لوثيقة جديدة بحساب عمود جديد في A ثم ضرب عمود جديد ب T S−1. يحسب العمود الجديد في A باستخدام ترجيحات المصطلح العمومية المشتقة في الأصل وتطبيق نفس دالة الترجيح المحلية على المصطلحات الموجودة في الاستعلام أو في الوثيقة الجديدة.

عيب واحد في حساب المتجهات بهذه الطريقة ، عند إضافة وثائق جديدة قابلة للبحث هو تجاهل المصطلحات التي لم تكن معروفة أثناء مرحلة تفريق القيمة المنفردة للمؤشر الأصلي. لن يكون لهذه المصطلحات أي تأثير على الترجيحات العمومية والارتباطات المُتَعَلّمة من مجموعة النصوص الأصلية. ومع ذلك، لا تزال المتجهات المحسوبة للنص الجديد ذات صلة كبيرة بمقارنات التشابه مع جميع متجهات الوثائق الأخرى.

تسمى عملية تعزيز فضاءات الوثيقة المتجهية للفهرس الدلالي الكامن بوثائق جديدة بهذه الطريقة ب "الطي". على الرغم من أن عملية الطي لا تأخذ في الاعتبار المحتوى الدلالي الجديد للنص الجديد، فإن إضافة عدد كبير من الوثائق بهذه الطريقة سيظل يوفر نتائج جيدة للاستفسارات طالما أن المصطلحات والمفاهيم التي تحتويها ممثلة جيدا ضمن الفهرس الدلالي الكامن الذي تضاف إليه.

عندما يلزم تضمين مصطلحات ومفاهيم مجموعة جديدة من الوثائق في الفهرس الدلالي الكامن، فيجب حينها إعادة حساب مصفوفة الوثيقة-المصطلح، وتفريق القيمة المنفردة أو الحاجة إلى طريقة تحديث تزايدية (مثل تلك الموضحة في [12]).

الاستخدامات الأخرى للفهرسة الدلالية الكامنة

من المعترف به عمومًا أن القدرة على التعامل مع النصوص على أساس دلالي أمر ضروري لأنظمة استرداد المعلومات الحديثة. ونتيجة لذلك ، فقد توسع استخدام الفهرسة الدلالية الكامنة توسعا ملحوظ في السنوات الأخيرة مع التغلب على التحديات السابقة المتعلقة بقابلية التوسع والأداء.

تُستخدم الفهرسة الدلالية الكامنة في مجموعة متنوعة من تطبيقات استرداد المعلومات ومعالجة النصوص ، على الرغم من أن تطبيقها الأساسي كان في البحث عن المفاهيم والتصنيف الآلي للوثائق.[29] فيما يلي بعض الطرق الأخرى التي تستخدم فيها استخدام الفهرسة الدلالية الكامنة:

  • استكشاف المعلومات.[30] (eDiscovery، المجتمع الحكومي / الاستخباراتي، النشر)
  • التصنيف الآلي للمستندات.[31] (eDiscovery، المجتمع الحكومي / الاستخباراتي، النشر)
  • تلخيص النصوص.[32] (eDiscovery، النشر)
  • اكتشاف العلاقات. [33] (الحكومة، المجتمع الاستخباراتي، الشبكات الاجتماعية)
  • الإنشاء التلقائي لمخططات روابط الأفراد والمنظمات. [34] (الحكومة، المجتمع الاستخباراتي)
  • مطابقة الأوراق الفنية والمنح مع المراجعين.[35] (الحكومة)
  • دعم العملاء عبر الإنترنت.[36] (إدارة العملاء)
  • تحديد تأليف المستندات.[37] (التعليم)
  • التعليق التلقائي على الكلمات المفتاحية للصور.[38]
  • فهم شفرة المصدر للبرمجيات. [39](هندسة البرمجيات)
  • تصفية الرسائل غير المرغوب فيها. ][40] (إدارة النظام)
  • نمذجة المعلومات. [41]
  • تقدير درجات المقالات.[42] (التعليم)
  • اكتشاف الأدبيات.[43]
  • توقع عوائد الأسهم.[5]
  • تحليل محتوى الأحلام.[6](علم النفس)

Sure, here is a possible translation of the text into Arabic:

تحديات الفهرسة الدلالية الكامنة

ارتكزت التحديات المبكرة للفهرسة الدلالية الكامنة على قابلية التوسع والأداء، حيث تتطلب الفهرسة الدلالية الكامنة أداءً حاسوبيا عاليا مرتفعًا نسبيًا وذاكرة أكبر مقارنةً بتقنيات استرداد المعلومات الأخرى.[44]

بدأت هذه التحديات بالتشتت إلى حد ما مع توفر المعالجات الحديثة عالية السرعة وتوفر موارد الذاكرة غير المكلفة.

التطبيقات الفعلية للفهرسة الدلالية الكامنة في وقعنا المعاش والتي تضمنت أكثر من 30 مليون وثيقة عولجت بالكامل من خلال حسابات المصفوفة وتفريق القيمة المنفردة شائعة في بعض تطبيقات الفهرسة الدلالية الكامنة.[45]

كان هناك تحدي آخر للفهرسة الدلالية الكامنة هو الصعوبة المزعومة في تحديد العدد الأمثل للأبعاد المستخدمة لإجراء تفريق القيمة المنفردة. وكقاعدة عامة، يسمح عدد أقل من الأبعاد بإجراء مقارنات أوسع للمفاهيم الواردة في مجموعة من النصوص، بينما يسمح عدد أكبر من الأبعاد بإجراء مقارنات أكثر تحديدًا (أو أكثر صلة) للمفاهيم.

يقتصر العدد الفعلي للأبعاد التي يمكن استخدامها على عدد الوثائق في المجموعة. وقد أظهرت الأبحاث أن حوالي 300 بعدًا ستوفر عادةً أفضل النتائج مع مجموعات الوثائق متوسطة الحجم (مئات الآلاف من المستندات) وربما 400 بعدًا لمجموعات الوثائق الأكبر (ملايين المستندات).[46]

ومع ذلك، تشير الدراسات الحديثة إلى أن 50-1000 بعدًا مناسبة حسب حجم وطبيعة مجموعة الوثائق.[47] لا يصلح التحقق من نسبة التباين المحتفظ بها، على غرار تحليل المكونات الأساسية، لتحديد الأبعاد المثلى للفهرسة الدلالية الكامنة.

هناك طريقتان محتملتان للعثور على الأبعاد الصحيحة باستخدام اختبار المرادف أو توقع الكلمات المفقودة.[48] عند استخدام مواضيع الفهرسة الدلالية الكامنة كميزات في طرق التعلم الخاضع للإشراف، يمكن استخدام قياسات خطأ التنبؤ للعثور على الأبعاد المثالية.

المراجع

  1. Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.
  2. "The Latent Semantic Indexing home page".
  3. Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5)
  4. Alain Lifchitz؛ Sandra Jhean-Larose؛ Guy Denhière (2009). "Effect of tuned parameters on an LSA multiple choice questions answering model" (PDF). Behavior Research Methods. ج. 41 ع. 4: 1201–1209. arXiv:0811.0146. DOI:10.3758/BRM.41.4.1201. PMID:19897829. S2CID:480826.
  5. 5٫0 5٫1 Ramiro H. Gálvez؛ Agustín Gravano (2017). "Assessing the usefulness of online message board mining in automatic stock prediction systems". Journal of Computational Science. ج. 19: 1877–7503. DOI:10.1016/j.jocs.2017.01.001.
  6. 6٫0 6٫1 Altszyler, E.؛ Ribeiro, S.؛ Sigman, M.؛ Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. ج. 56: 178–187. arXiv:1610.01520. DOI:10.1016/j.concog.2017.09.004. PMID:28943127. S2CID:195347873.
  7. Gerry J. Elman (أكتوبر 2007). "Automated Patent Examination Support - A proposal". Biotechnology Law Report. ج. 26 ع. 5: 435–436. DOI:10.1089/blr.2007.9896.
  8. Marc W. Howard؛ Michael J. Kahana (1999). "Contextual Variability and Serial Position Effects in Free Recall" (PDF). {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة)
  9. Franklin M. Zaromb؛ وآخرون (2006). Temporal Associations and Prior-List Intrusions in Free Recall (PDF). Interspeech'2005.
  10. Nelson، Douglas. "The University of South Florida Word Association, Rhyme and Word Fragment Norms". اطلع عليه بتاريخ 2011-05-08.
  11. Geneviève Gorrell؛ Brandyn Webb (2005). "Generalized Hebbian Algorithm for Latent Semantic Analysis" (PDF). Interspeech'2005. مؤرشف من الأصل (PDF) في 2008-12-21.
  12. 12٫0 12٫1 Matthew Brand (2006). "Fast Low-Rank Modifications of the Thin Singular Value Decomposition" (PDF). Linear Algebra and Its Applications. ج. 415: 20–30. DOI:10.1016/j.laa.2005.07.021.
  13. Ding، Yaguang؛ Zhu، Guofeng؛ Cui، Chenyang؛ Zhou، Jian؛ Tao، Liang (2011). "A parallel implementation of Singular Value Decomposition based on Map-Reduce and PARPACK". Proceedings of 2011 International Conference on Computer Science and Network Technology. ص. 739–741. DOI:10.1109/ICCSNT.2011.6182070. ISBN:978-1-4577-1587-7. S2CID:15281129.
  14. 14٫0 14٫1 Deerwester، Scott؛ Dumais، Susan T.؛ Furnas، George W.؛ Landauer، Thomas K.؛ Harshman، Richard (1990). "Indexing by latent semantic analysis". Journal of the American Society for Information Science. ج. 41 ع. 6: 391–407. CiteSeerX:10.1.1.108.8490. DOI:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
  15. Abedi، Vida؛ Yeasin، Mohammed؛ Zand، Ramin (27 نوفمبر 2014). "Empirical study using network of semantically related associations in bridging the knowledge gap". Journal of Translational Medicine. ج. 12 ع. 1: 324. DOI:10.1186/s12967-014-0324-9. PMC:4252998. PMID:25428570.
  16. Thomas Hofmann (1999). "Probabilistic Latent Semantic Analysis". Uncertainty in Artificial Intelligence. arXiv:1301.6705.
  17. 17٫0 17٫1 17٫2 Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.
  18. Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.
  19. Furnas، G. W.؛ Landauer، T. K.؛ Gomez، L. M.؛ Dumais، S. T. (1987). "The vocabulary problem in human-system communication". Communications of the ACM. ج. 30 ع. 11: 964–971. CiteSeerX:10.1.1.118.4768. DOI:10.1145/32206.32212. S2CID:3002280.
  20. Homayouni، R.؛ Heinrich، K.؛ Wei، L.؛ Berry، M. W. (2004). "Gene clustering by Latent Semantic Indexing of MEDLINE abstracts". Bioinformatics. ج. 21 ع. 1: 104–115. DOI:10.1093/bioinformatics/bth464. PMID:15308538.
  21. Price، R. J.؛ Zukas، A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". Intelligence and Security Informatics. Lecture Notes in Computer Science. ج. 3495. ص. 602. DOI:10.1007/11427995_68. ISBN:978-3-540-25999-2.
  22. Ding, C., A Similarity-based Probability Model for Latent Semantic Indexing, Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.
  23. Bartell, B., Cottrell, G., and Belew, R., Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling[وصلة مكسورة], Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.
  24. Graesser, A.؛ Karnavat, A. (2000). "Latent Semantic Analysis Captures Causal, Goal-oriented, and Taxonomic Structures". Proceedings of CogSci 2000: 184–189. CiteSeerX:10.1.1.23.5444.
  25. Dumais، S.؛ Nielsen، J. (1992). "Automating the assignment of submitted manuscripts to reviewers". Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '92. ص. 233–244. CiteSeerX:10.1.1.16.9793. DOI:10.1145/133160.133205. ISBN:978-0897915236. S2CID:15038631.
  26. Berry, M. W., and Browne, M., Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, Philadelphia, (2005).
  27. Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.
  28. Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval, December 1994, SIAM Review 37:4 (1995), pp. 573–595.
  29. Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.
  30. Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.
  31. Foltz, P. W. and Dumais, S. T. Personalized Information Delivery: An analysis of information filtering methods, Communications of the ACM, 1992, 34(12), 51-60.
  32. Gong, Y., and Liu, X., Creating Generic Text Summaries, Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.
  33. Bradford, R., Efficient Discovery of New Information in Large Text Databases, Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.
  34. Bradford، R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". Intelligence and Security Informatics. Lecture Notes in Computer Science. ج. 3975. ص. 674–675. DOI:10.1007/11760146_84. ISBN:978-3-540-34478-0.
  35. Yarowsky, D., and Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant, Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.
  36. Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.
  37. Soboroff, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 1997, pp. 43–48.
  38. Monay, F., and Gatica-Perez, D., On Image Auto-annotation with Latent Space Models, Proceedings of the 11th ACM international conference on Multimedia, Berkeley, CA, 2003, pp. 275–278.
  39. Maletic, J.؛ Marcus, A. (13–15 نوفمبر 2000). "Using latent semantic analysis to identify similarities in source code to support program understanding". Proceedings 12th IEEE Internationals Conference on Tools with Artificial Intelligence. ICTAI 2000. Vancouver, British Columbia. ص. 46–53. CiteSeerX:10.1.1.36.6652. DOI:10.1109/TAI.2000.889845. ISBN:978-0-7695-0909-9. S2CID:10354564.
  40. Gee, K., Using Latent Semantic Indexing to Filter Spam, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.
  41. Landauer, T., Laham, D., and Derr, M., From Paragraph to Graph: Latent Semantic Analysis for Information Visualization, Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.
  42. Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.
  43. Gordon, M., and Dumais, S., Using Latent Semantic Indexing for Literature Based Discovery, Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.
  44. Karypis, G., Han, E., Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval, Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.
  45. Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". Advances in Information Retrieval. Lecture Notes in Computer Science. ج. 6611. ص. 289–300. DOI:10.1007/978-3-642-20161-5_29. ISBN:978-3-642-20160-8.
  46. Bradford, R., An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications, Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.
  47. Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.
  48. Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284