التحليل الدلالي الكامن (بالإنجليزية: Latent semantic analysis (LSA))‏ هو تقنية في معالجة اللغة الطبيعية (بالإنجليزية: Natural Language Processing (NLP))‏ -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها. يقوم التحليل الدلالي الكامن بإنشاء مجموعة من المفاهيم -الميزات الكامنة- والتي تعكس المعنى المشترك بين هذه الوثائق والمصطلحات.

يفترض التحليل الدلالي الكامن أن الكلمات ذات المعنى المماثل ستظهر في أجزاء مماثلة من النص (الدلالات التوزيعية). ويستند هذا الافتراض إلى فكرة أن الكلمات ذات المعنى المماثل تميل إلى أن تستخدم في سياقات مماثلة.

تُبنى مصفوفة من نصوص هذه الوثائق تحتوي على عدد الكلمات في كل وثيقة، حيث تمثل الصفوف الكلمات الفريدة وتشير الأعمدة إلى كل وثيقة. وتستخدم في هذا التحليل تقنية رياضية تُعرف باسم تفريق القيمة المنفردة (SVD) لتقليل عدد الصفوف مع الحفاظ على هيكل التشابه بين الأعمدة.

تُقارن هذه الوثائق بعد ذلك بناءً على تشابه جيب التمام بين أي عمودين. فكلما اقتربت قيمة التشابه من 1 زادت درجة التشابه بين الوثائق، والعكس صحيح.^[1]

حصل كل من سكوت ديرويستر وسوزان دومايس وجورج فورناس وريتشارد هارشمان وتوماس لانداور وكارين لوشبوم ولين ستريتر على براءة اختراع تقنية استرجاع المعلومات باستخدام هيكل التحليل الدلالي الكامن في عام 1988 (براءة اختراع أمريكية رقم 4,839,853 منتهية الصلاحية الآن).

يطلق على التحليل الدلالي الكامن في سياق تطبيقه على استرجاع المعلومات اسم الفهرسة الدلالية الكامنة (بالإنجليزية: (LSI) latent semantic indexing)‏ أحيانًا.

نظرة عامة

مصفوفة الحدوث

يمكن للتحليل الدلالي الكامن استخدام مصفوفة الوثائق والمصطلحات وهي مصفوفة رياضية تصف تكرار المصطلحات في مجموعة من الوثائق، وهي مصفوفة متفرقة (متناثرة) تتناغم صفوفها مع المصطلحات وأعمدتها مع الوثائق.

يعتبر "تردد المصطلح - تردد الوثيقة المعكوس" من الأمثلة النموذجية على توزيع عناصر المصفوفة: يتناسب وزن عنصر ما في المصفوفة مع عدد مرات ظهور المصطلحات في كل وثيقة، حيث ترفع أوزان المصطلحات النادرة لتعكس أهميتها النسبية.

تعتبر هذه المصفوفة شائعة أيضًا في النماذج اللفظية القياسية، على الرغم من أنه ليس من الضروري أن تُعبَّر كمصفوفة صراحة، نظرًا لأن الخصائص الرياضية للمصفوفات لا تستخدم فيها دائمًا.

=تخفيض الرتبة

يجد التحليل الدلالي الكامن بعد إنشاء مصفوفة التكرار تقريبًا مُنخفض الرتبة لمصفوفة المصطلحات-المستندات.^[2] يمكن أن يكون هناك أسباب مختلفة لهذه التقريبات:

يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية كبيرة جدًا بالنسبة لموارد الحوسبة ؛ وتُفسر مصفوفة الرتبة المنخفضة في هذه الحالة بتقدير تقريبي (أقل شر ضروري).
يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية مشوشة: على سبيل المثال، يجب إزالة الحالات القصصية للمصطلحات. وتُفسر المصفوفة المقدرة كمصفوفة خالية من التشويش (مصفوفة أفضل من المصفوفة الأصلية).
يُفترض أن مصفوفة المصطلحات-المستندات الأصلية متفرقة للغاية بالنسبة إلى مصفوفة المصطلحات-المستندات "الحقيقية". وهذا يعني أن المصفوفة الأصلية تسرد فقط الكلمات الموجودة بالفعل في كل مستند، بينما أننا قد نكون مهتمين بجميع الكلمات المتعلقة بكل مستند - وهي مجموعة أكبر بكثير عموما بسبب الترادفات في المعاني.

المراجع

↑ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.
↑ Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5) قالب:Page needed

[1] Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.

[2] Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5) قالب:Page needed

[1]

[2]