التحليل الدلالي الكامن

التحليل الدلالي الكامن (بالإنجليزية: Latent semantic analysis (LSA))‏ هو تقنية في معالجة اللغة الطبيعية (بالإنجليزية: Natural Language Processing (NLP))‏ -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها. يقوم التحليل الدلالي الكامن بإنشاء مجموعة من المفاهيم -الميزات الكامنة- والتي تعكس المعنى المشترك بين هذه الوثائق والمصطلحات.

يفترض التحليل الدلالي الكامن أن الكلمات ذات المعنى المماثل ستظهر في أجزاء مماثلة من النص (الدلالات التوزيعية). ويستند هذا الافتراض إلى فكرة أن الكلمات ذات المعنى المماثل تميل إلى أن تستخدم في سياقات مماثلة.

تُبنى مصفوفة من نصوص هذه الوثائق تحتوي على عدد الكلمات في كل وثيقة، حيث تمثل الصفوف الكلمات الفريدة وتشير الأعمدة إلى كل وثيقة. وتستخدم في هذا التحليل تقنية رياضية تُعرف باسم تفريق القيم المنفردة (SVD) لتقليل عدد الصفوف مع الحفاظ على هيكل التشابه بين الأعمدة.

تُقارن هذه الوثائق بعد ذلك بناءً على تشابه جيب التمام بين أي عمودين. فكلما اقتربت قيمة التشابه من 1 زادت درجة التشابه بين الوثائق، والعكس صحيح.^[1]

حصل كل من سكوت ديرويستر وسوزان دومايس وجورج فورناس وريتشارد هارشمان وتوماس لانداور وكارين لوشبوم ولين ستريتر على براءة اختراع تقنية استرجاع المعلومات باستخدام هيكل التحليل الدلالي الكامن في عام 1988 (براءة اختراع أمريكية رقم 4,839,853 منتهية الصلاحية الآن).

يطلق على التحليل الدلالي الكامن في سياق تطبيقه على استرجاع المعلومات اسم الفهرسة الدلالية الكامنة (بالإنجليزية: (LSI) latent semantic indexing)‏ أحيانًا.

المراجع

↑ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.

[1] Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.

[1]