التحليل الدلالي الكامن

التحليل الدلالي الكامن (بالإنجليزية: Latent semantic analysis (LSA))‏ هو تقنية في معالجة اللغة الطبيعية (بالإنجليزية: Natural Language Processing (NLP))‏ -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها. يقوم التحليل الدلالي الكامن بإنشاء مجموعة من المفاهيم -الميزات الكامنة- والتي تعكس المعنى المشترك بين هذه الوثائق والمصطلحات.

يفترض التحليل الدلالي الكامن أن الكلمات ذات المعنى المماثل ستظهر في أجزاء مماثلة من النص (الدلالات التوزيعية). ويستند هذا الافتراض إلى فكرة أن الكلمات ذات المعنى المماثل تميل إلى أن تستخدم في سياقات مماثلة.

تُبنى مصفوفة من نصوص هذه الوثائق تحتوي على عدد الكلمات في كل وثيقة، حيث تمثل الصفوف الكلمات الفريدة وتشير الأعمدة إلى كل وثيقة. وتستخدم في هذا التحليل تقنية رياضية تُعرف باسم تفريق القيمة المنفردة (SVD) لتقليل عدد الصفوف مع الحفاظ على هيكل التشابه بين الأعمدة.

تُقارن هذه الوثائق بعد ذلك بناءً على تشابه جيب التمام بين أي عمودين. فكلما اقتربت قيمة التشابه من 1 زادت درجة التشابه بين الوثائق، والعكس صحيح.^[1]

حصل كل من سكوت ديرويستر وسوزان دومايس وجورج فورناس وريتشارد هارشمان وتوماس لانداور وكارين لوشبوم ولين ستريتر على براءة اختراع تقنية استرجاع المعلومات باستخدام هيكل التحليل الدلالي الكامن في عام 1988 (براءة اختراع أمريكية رقم 4,839,853 منتهية الصلاحية الآن).

يطلق على التحليل الدلالي الكامن في سياق تطبيقه على استرجاع المعلومات اسم الفهرسة الدلالية الكامنة (بالإنجليزية: (LSI) latent semantic indexing)‏ أحيانًا.^[2]

نظرة عامة

مصفوفة الحدوث

يمكن للتحليل الدلالي الكامن استخدام مصفوفة الوثائق والمصطلحات وهي مصفوفة رياضية تصف تكرار المصطلحات في مجموعة من الوثائق، وهي مصفوفة متفرقة (متناثرة) تتناغم صفوفها مع المصطلحات وأعمدتها مع الوثائق.

يعتبر "تردد المصطلح - تردد الوثيقة المعكوس" من الأمثلة النموذجية على توزيع عناصر المصفوفة: يتناسب وزن عنصر ما في المصفوفة مع عدد مرات ظهور المصطلحات في كل وثيقة، حيث ترفع أوزان المصطلحات النادرة لتعكس أهميتها النسبية.

تعتبر هذه المصفوفة شائعة أيضًا في النماذج اللفظية القياسية، على الرغم من أنه ليس من الضروري أن تُعبَّر كمصفوفة صراحة، نظرًا لأن الخصائص الرياضية للمصفوفات لا تستخدم فيها دائمًا.

خفض الرتبة

يجد التحليل الدلالي الكامن بعد إنشاء مصفوفة التكرار تقريبًا مُنخفض الرتبة لمصفوفة المصطلحات-المستندات.^[3] ويُعزى ذلك لأسباب مختلفة لهذه التقريبات:

يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية كبيرة جدًا بالنسبة لموارد الحوسبة ؛ وتُفسر مصفوفة الرتبة المنخفضة في هذه الحالة بتقدير تقريبي (أقل شر ضروري).
يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية مشوشة: على سبيل المثال، يجب إزالة الحالات القصصية للمصطلحات. وتُفسر المصفوفة المقدرة كمصفوفة خالية من التشويش (مصفوفة أفضل من المصفوفة الأصلية).
يُفترض أن مصفوفة المصطلحات-المستندات الأصلية متفرقة للغاية بالنسبة إلى مصفوفة المصطلحات-المستندات "الحقيقية". وهذا يعني أن المصفوفة الأصلية تسرد فقط الكلمات الموجودة بالفعل في كل مستند، بينما أننا قد نكون مهتمين بجميع الكلمات المتعلقة بكل مستند - وهي مجموعة أكبر بكثير عموما بسبب الترادفات في المعاني.

يؤدي خفض الرتبة إلى دمج بعض الأبعاد وجعلها تعتمد على أكثر من مصطلح واحد.

على سبيل المثال، يمكن أن يتحول التسلسل التالي:

{(سيارة) ، (شاحنة) ، (زهرة)} إلى

{(1.3452 * سيارة + 0.2828 * شاحنة) ، (زهرة)}

يساعد خفض الرتبة على حل مشكلة تحديد المترادفات من خلال دمج الأبعاد المرتبطة بالمصطلحات التي لها معاني متشابهة. كما أنه يقلل من مشكلة المشتركات اللفظية من خلال إضافة مكونات الكلمات متعددة المعاني التي تشير إلى الاتجاه "الصحيح" إلى مكونات الكلمات التي تشترك في المعنى. وفي المقابل، تميل العناصر التي تشير إلى اتجاهات غير مقصودة إلى الانحسار أو أن تكون أقل أهمية من العناصر التي تشير إلى الاتجاه المقصود.

الاشتقاق

لنفترض أن $X$ هي مصفوفة حيث يصف العنصر $(i,j)$ حدوث المصطلح $i$ في الوثيقة $j$ (التردد على سبيل المثال). $X$ ستبدو المصفوفة كمايلي:

${\begin{matrix}&{\textbf {d}}_{j}\\&\downarrow \\{\textbf {t}}_{i}^{T}\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}\end{matrix}}$

سيكون الصف في هذه المصفوفة الآن متجها يتوافق مع مصطلح ما، مع ذكر علاقته بكل وثيقة:

${\textbf {t}}_{i}^{T}={\begin{bmatrix}x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\end{bmatrix}}$

وبالمثل، سيكون العمود في هذه المصفوفة متجها يتوافق مع مستند ما، مع ذكر علاقته بكل مصطلح:

${\textbf {d}}_{j}={\begin{bmatrix}x_{1,j}\\\vdots \\x_{i,j}\\\vdots \\x_{m,j}\\\end{bmatrix}}$

يعطي حاصل الجداء النقطي ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ بين متجهي مصطلحين معامل الارتباط بين المصطلحات على مجموعة الوثائق.

ويحتوي حاصل ضرب المصفوفات $XX^{T}$ كل حواصل الجداء النقطي. يحتوي العنصر $(i,p)$ (الذي يساوي العنصر $(p,i)$ ) حاصل الجداء النقطي

( $={\textbf {t}}_{p}^{T}{\textbf {t}}_{i}$ ) ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$

وبالمثل، تحتوي المصفوفة $X^{T}X$ على حاصل الجداء النقطي بين جميع متجهات الوثيقة، ما يعطي ارتباطها بالمصطلحات: ${\textbf {d}}_{j}^{T}{\textbf {d}}_{q}={\textbf {d}}_{q}^{T}{\textbf {d}}_{j}$ .

واستنادا إلى نظرية الجبر الخطي، هنالك تحليل ل $X$ بحيث تكون $U$ و $V$ مصفوفة متعامدة و $Sigma$ هي مصفوفة قطرية. وهذا ما يطلق عليه اسم تفريق القيمة المنفردة:

${\begin{matrix}X=U\Sigma V^{T}\end{matrix}}$

ويصبح حاصل جداء المصفوفة الذي يعطي المصطلح وارتباط المستند: ${\begin{matrix}XX^{T}&=&(U\Sigma V^{T})(U\Sigma V^{T})^{T}=(U\Sigma V^{T})(V^{T^{T}}\Sigma ^{T}U^{T})=U\Sigma V^{T}V\Sigma ^{T}U^{T}=U\Sigma \Sigma ^{T}U^{T}\\X^{T}X&=&(U\Sigma V^{T})^{T}(U\Sigma V^{T})=(V^{T^{T}}\Sigma ^{T}U^{T})(U\Sigma V^{T})=V\Sigma ^{T}U^{T}U\Sigma V^{T}=V\Sigma ^{T}\Sigma V^{T}\end{matrix}}$

نظرا لأن $\Sigma \Sigma ^{T}$ و $\Sigma ^{T}\Sigma$ قطريان، نرى أن $U$ يجب أن تحتوي على المتجه الذاتي ل $XX^{T}$ ، بينما يجب أن تكون $V$ هي المتجهات الذاتية ل $X^{T}X$ . كلا الجدائين لهما نفس القيم الذاتية غير الصفرية، المعطاة من خلال الإدخالات غير الصفرية ل $\Sigma \Sigma ^{T}$ ، أو بالتساوي، من خلال الإدخالات غير الصفرية ل $\Sigma ^{T}\Sigma$ .

سيبدو التحليل الآن كمايلي: ${\begin{matrix}&X&&&U&&\Sigma &&V^{T}\\&({\textbf {d}}_{j})&&&&&&&({\hat {\textbf {d}}}_{j})\\&\downarrow &&&&&&&\downarrow \\({\textbf {t}}_{i}^{T})\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}&=&({\hat {\textbf {t}}}_{i}^{T})\rightarrow &{\begin{bmatrix}{\begin{bmatrix}\,\\\,\\{\textbf {u}}_{1}\\\,\\\,\end{bmatrix}}\dots {\begin{bmatrix}\,\\\,\\{\textbf {u}}_{l}\\\,\\\,\end{bmatrix}}\end{bmatrix}}&\cdot &{\begin{bmatrix}\sigma _{1}&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\sigma _{l}\\\end{bmatrix}}&\cdot &{\begin{bmatrix}{\begin{bmatrix}&&{\textbf {v}}_{1}&&\end{bmatrix}}\\\vdots \\{\begin{bmatrix}&&{\textbf {v}}_{l}&&\end{bmatrix}}\end{bmatrix}}\end{matrix}}$

المراجع

↑ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.
↑ "The Latent Semantic Indexing home page".
↑ Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5)

[1] Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.

[2] "The Latent Semantic Indexing home page".

[3] Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5)

[1]

[2]

[3]