الفرق بين المراجعتين لصفحة: «التحليل الدلالي الكامن»

مراجعة 14:20، 2 ديسمبر 2023

التحليل الدلالي الكامن (بالإنجليزية: Latent semantic analysis (LSA))‏ هو تقنية في معالجة اللغة الطبيعية (بالإنجليزية: Natural Language Processing (NLP))‏ -في مجال الدلالة التوزيعية تحديدًا - تستخدم لتحليل العلاقات بين الوثائق والمصطلحات التي تحتوي عليها. يقوم التحليل الدلالي الكامن بإنشاء مجموعة من المفاهيم -الميزات الكامنة- والتي تعكس المعنى المشترك بين هذه الوثائق والمصطلحات.

يفترض التحليل الدلالي الكامن أن الكلمات ذات المعنى المماثل ستظهر في أجزاء مماثلة من النص (الدلالات التوزيعية). ويستند هذا الافتراض إلى فكرة أن الكلمات ذات المعنى المماثل تميل إلى أن تستخدم في سياقات مماثلة.

تُبنى مصفوفة من نصوص هذه الوثائق تحتوي على عدد الكلمات في كل وثيقة، حيث تمثل الصفوف الكلمات الفريدة وتشير الأعمدة إلى كل وثيقة. وتستخدم في هذا التحليل تقنية رياضية تُعرف باسم تفريق القيمة المنفردة (SVD) لتقليل عدد الصفوف مع الحفاظ على هيكل التشابه بين الأعمدة.

تُقارن هذه الوثائق بعد ذلك بناءً على تشابه جيب التمام بين أي عمودين. فكلما اقتربت قيمة التشابه من 1 زادت درجة التشابه بين الوثائق، والعكس صحيح.^[1]

حصل كل من سكوت ديرويستر وسوزان دومايس وجورج فورناس وريتشارد هارشمان وتوماس لانداور وكارين لوشبوم ولين ستريتر على براءة اختراع تقنية استرجاع المعلومات باستخدام هيكل التحليل الدلالي الكامن في عام 1988 (براءة اختراع أمريكية رقم 4,839,853 منتهية الصلاحية الآن).

يطلق على التحليل الدلالي الكامن في سياق تطبيقه على استرجاع المعلومات اسم الفهرسة الدلالية الكامنة (بالإنجليزية: (LSI) latent semantic indexing)‏ أحيانًا.^[2]

نظرة عامة

مصفوفة الحدوث

يمكن للتحليل الدلالي الكامن استخدام مصفوفة الوثائق والمصطلحات وهي مصفوفة رياضية تصف تكرار المصطلحات في مجموعة من الوثائق، وهي مصفوفة متفرقة (متناثرة) تتناغم صفوفها مع المصطلحات وأعمدتها مع الوثائق.

يعتبر "تردد المصطلح - تردد الوثيقة المعكوس" من الأمثلة النموذجية على توزيع عناصر المصفوفة: يتناسب وزن عنصر ما في المصفوفة مع عدد مرات ظهور المصطلحات في كل وثيقة، حيث ترفع أوزان المصطلحات النادرة لتعكس أهميتها النسبية.

تعتبر هذه المصفوفة شائعة أيضًا في النماذج اللفظية القياسية، على الرغم من أنه ليس من الضروري أن تُعبَّر كمصفوفة صراحة، نظرًا لأن الخصائص الرياضية للمصفوفات لا تستخدم فيها دائمًا.

خفض الرتبة

يجد التحليل الدلالي الكامن بعد إنشاء مصفوفة التكرار تقريبًا مُنخفض الرتبة لمصفوفة المصطلحات-المستندات.^[3] ويُعزى ذلك لأسباب مختلفة لهذه التقريبات:

يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية كبيرة جدًا بالنسبة لموارد الحوسبة ؛ وتُفسر مصفوفة الرتبة المنخفضة في هذه الحالة بتقدير تقريبي (أقل شر ضروري).
يَفترض التحليل أن مصفوفة المصطلحات-المستندات الأصلية مشوشة: على سبيل المثال، يجب إزالة الحالات القصصية للمصطلحات. وتُفسر المصفوفة المقدرة كمصفوفة خالية من التشويش (مصفوفة أفضل من المصفوفة الأصلية).
يُفترض أن مصفوفة المصطلحات-المستندات الأصلية متفرقة للغاية بالنسبة إلى مصفوفة المصطلحات-المستندات "الحقيقية". وهذا يعني أن المصفوفة الأصلية تسرد فقط الكلمات الموجودة بالفعل في كل مستند، بينما أننا قد نكون مهتمين بجميع الكلمات المتعلقة بكل مستند - وهي مجموعة أكبر بكثير عموما بسبب الترادفات في المعاني.

يؤدي خفض الرتبة إلى دمج بعض الأبعاد وجعلها تعتمد على أكثر من مصطلح واحد.

على سبيل المثال، يمكن أن يتحول التسلسل التالي:

{(سيارة) ، (شاحنة) ، (زهرة)} إلى

{(1.3452 * سيارة + 0.2828 * شاحنة) ، (زهرة)}

يساعد خفض الرتبة على حل مشكلة تحديد المترادفات من خلال دمج الأبعاد المرتبطة بالمصطلحات التي لها معاني متشابهة. كما أنه يقلل من مشكلة المشتركات اللفظية من خلال إضافة مكونات الكلمات متعددة المعاني التي تشير إلى الاتجاه "الصحيح" إلى مكونات الكلمات التي تشترك في المعنى. وفي المقابل، تميل العناصر التي تشير إلى اتجاهات غير مقصودة إلى الانحسار أو أن تكون أقل أهمية من العناصر التي تشير إلى الاتجاه المقصود.

الاشتقاق

لنفترض أن $X$ هي مصفوفة حيث يصف العنصر $(i,j)$ حدوث المصطلح $i$ في الوثيقة $j$ (التردد على سبيل المثال). $X$ ستبدو المصفوفة كمايلي:

${\begin{matrix}&{\textbf {d}}_{j}\\&\downarrow \\{\textbf {t}}_{i}^{T}\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}\end{matrix}}$

سيكون الصف في هذه المصفوفة الآن متجها يتوافق مع مصطلح ما، مع ذكر علاقته بكل وثيقة:

${\textbf {t}}_{i}^{T}={\begin{bmatrix}x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\end{bmatrix}}$

وبالمثل، سيكون العمود في هذه المصفوفة متجها يتوافق مع مستند ما، مع ذكر علاقته بكل مصطلح:

${\textbf {d}}_{j}={\begin{bmatrix}x_{1,j}\\\vdots \\x_{i,j}\\\vdots \\x_{m,j}\\\end{bmatrix}}$

يعطي حاصل الجداء النقطي ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ بين متجهي مصطلحين معامل الارتباط بين المصطلحات على مجموعة الوثائق.

ويحتوي حاصل ضرب المصفوفات $XX^{T}$ كل حواصل الجداء النقطي. يحتوي العنصر $(i,p)$ (الذي يساوي العنصر $(p,i)$ ) حاصل الجداء النقطي:

( $={\textbf {t}}_{p}^{T}{\textbf {t}}_{i}$ ) ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$

وبالمثل، تحتوي المصفوفة $X^{T}X$ على حاصل الجداء النقطي بين جميع متجهات الوثيقة، ما يعطي ارتباطها بالمصطلحات: ${\textbf {d}}_{j}^{T}{\textbf {d}}_{q}={\textbf {d}}_{q}^{T}{\textbf {d}}_{j}$ .

واستنادا إلى نظرية الجبر الخطي، هنالك تحليل ل $X$ بحيث تكون $U$ و $V$ مصفوفة متعامدة و $Sigma$ هي مصفوفة قطرية. وهذا ما يطلق عليه اسم تفريق القيمة المنفردة:

${\begin{matrix}X=U\Sigma V^{T}\end{matrix}}$

ويصبح حاصل جداء المصفوفة الذي يعطي المصطلح وارتباط المستند:

${\begin{matrix}XX^{T}&=&(U\Sigma V^{T})(U\Sigma V^{T})^{T}=(U\Sigma V^{T})(V^{T^{T}}\Sigma ^{T}U^{T})=U\Sigma V^{T}V\Sigma ^{T}U^{T}=U\Sigma \Sigma ^{T}U^{T}\\X^{T}X&=&(U\Sigma V^{T})^{T}(U\Sigma V^{T})=(V^{T^{T}}\Sigma ^{T}U^{T})(U\Sigma V^{T})=V\Sigma ^{T}U^{T}U\Sigma V^{T}=V\Sigma ^{T}\Sigma V^{T}\end{matrix}}$

نظرا لأن $\Sigma \Sigma ^{T}$ و $\Sigma ^{T}\Sigma$ قطريان، نرى أن $U$ يجب أن تحتوي على المتجه الذاتي ل $XX^{T}$ ، بينما يجب أن تكون $V$ هي المتجهات الذاتية ل $X^{T}X$ . كلا الجدائين لهما نفس القيم الذاتية غير الصفرية، المعطاة من خلال الإدخالات غير الصفرية ل $\Sigma \Sigma ^{T}$ ، أو بالتساوي، من خلال الإدخالات غير الصفرية ل $\Sigma ^{T}\Sigma$ .

سيبدو التحليل الآن كمايلي:

${\begin{matrix}&X&&&U&&\Sigma &&V^{T}\\&({\textbf {d}}_{j})&&&&&&&({\hat {\textbf {d}}}_{j})\\&\downarrow &&&&&&&\downarrow \\({\textbf {t}}_{i}^{T})\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}&=&({\hat {\textbf {t}}}_{i}^{T})\rightarrow &{\begin{bmatrix}{\begin{bmatrix}\,\\\,\\{\textbf {u}}_{1}\\\,\\\,\end{bmatrix}}\dots {\begin{bmatrix}\,\\\,\\{\textbf {u}}_{l}\\\,\\\,\end{bmatrix}}\end{bmatrix}}&\cdot &{\begin{bmatrix}\sigma _{1}&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\sigma _{l}\\\end{bmatrix}}&\cdot &{\begin{bmatrix}{\begin{bmatrix}&&{\textbf {v}}_{1}&&\end{bmatrix}}\\\vdots \\{\begin{bmatrix}&&{\textbf {v}}_{l}&&\end{bmatrix}}\end{bmatrix}}\end{matrix}}$

تدعى القيم $\sigma _{1},\dots ,\sigma _{l}$ بالقيم الفردية، و $u_{1},\dots ,u_{l}$ و $v_{1},\dots ,v_{l}$ بالمتجهات المنفردة اليمنى واليسرى. لاحظ أن الجزء الوحيد من $U$ الذي يساهم في ${\textbf {t}}_{i}$ هو الصف $i{\textrm {'th}}$ . وليكن اسم متجه الصف هذا ${\hat {\textrm {t}}}_{i}^{T}$ . وبالمثل، فإن الجزء الوحيد من $V^{T}$ الذي يساهم في ${\textbf {d}}_{j}$ هو العمود $j{\textrm {'th}}$ ، ${\hat {\textrm {d}}}_{j}$ . وهي ليست متجهات ذاتية، ولكنها تعتمد على جميع المتجهات الذاتية.

يتضح أنه عند تحديد أكبر قيم منفردة ل $k$ ، والمتجهات الفردية المقابلة لها من $U$ و $V$ ، فسنحصل على تقريب ترتيب رتبة $k$ إلى $X$ مع أصغر هامش خطأ (قاعدة فروبينوس).

يوفر هذا التقريب الحد الأدنى من الخطأ، مما يسهل التعامل مع المصطلح وتوثيق المتجهات على أنها "فضاء دلالي".

ومن ثم سيحتوي متجه صف "المصطلح" $hat{textbf{t}}_{i}^{T}$ على إدخالات $k$ لتربطه إلى فضاء ذي أبعاد أقل.

لا تتعلق هذه الأبعاد الجديدة بأي مفاهيم مفهومة، بل هي مجرد تقريب أقل بعدا للفضاء ذي الأبعاد الأعلى. وبالمثل ، فإن متجه "الوثيقة" $hat{textbf{d}}_{j}$ هو تقريب في هذا الفضاء ذي الأبعاد الأدنى. نكتب هذا التقريب على النحو التالي:

$X_{k}=U_{k}\Sigma _{k}V_{k}^{T}$

يمكنك الآن القيام بمايلي:

تعرف على كيفية وجود المستندات ذات الصلة $j$ و $q$ في الفضاء منخفض الأبعاد من خلال مقارنة المتجهات $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{j}$ و $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{q}$ من خلال (نموذج الفضاء المتجه-تشابه جيب التمام).
مقارنة المصطلحين $i$ و $p$ من خلال مقارنة المتجهين $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{i}$ و $\ Sigma_{k}\cdot {\hat {\textbf {t}}}_{p}$ . لاحظ أن ${\hat {\textbf {t}}}$ أصبح الآن متجه عمود.
يمكن تجميع الوثائق وتمثيلات متجهات المصطلحات باستخدام خوارزميات التجميع التقليدية مثل خوارزمية "k-means" التصنيفية باستخدام مقاييس تشابه جيب التمام.
بالنسبة إلى استعلام ما، استعراض الاستعلام كمستند صغير، ومقارنته بالوثائق في الفضاء منخفض الأبعاد.

للقيام بهذا الأخير، يجب عليك أولا ترجمة استعلامك إلى فضاء منخفض الأبعاد، ومن البديهي بعد ذلك أنه يجب عليك استخدام نفس التحويل الذي استخدمته على الوثائق:

${\hat {\textbf {d}}}_{j}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {d}}_{j}$

لاحظ هنا أنه يمكننا استخلاص معكوس المصفوفة القطرية $Sigma_{k}$ من خلال عكس كل قيمة غير صفرية داخل المصفوفة.

هذا يعني أنه إذا كان لديك متجه استعلام $q$ ، فيجب عليك ترجمة ${\hat {\textbf {q}}}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {q}}$ قبل مقارنتها بمتجهات المستند في الفضاء منخفض الأبعاد. يمكنك القيام بنفس الأمر مع المتجهات ذات المدى الزائف:

${\textbf {t}}_{i}^{T}={\hat {\textbf {t}}}_{i}^{T}\Sigma _{k}V_{k}^{T}$

${\hat {\textbf {t}}}_{i}^{T}={\textbf {t}}_{i}^{T}V_{k}^{-T}\Sigma _{k}^{-1}={\textbf {t}}_{i}^{T}V_{k}\Sigma _{k}^{-1}$

${\hat {\textbf {t}}}_{i}=\Sigma _{k}^{-1}V_{k}^{T}{\textbf {t}}_{i}$

المراجع

↑ Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.
↑ "The Latent Semantic Indexing home page".
↑ Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5)

[1] Susan T. Dumais (2005). "Latent Semantic Analysis". Annual Review of Information Science and Technology. ج. 38: 188–230. DOI:10.1002/aris.1440380105.

[2] "The Latent Semantic Indexing home page".

[3] Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, (ردمك 978-1-4471-2226-5)

[1]

[2]

[3]

@@ سطر 147: / سطر 147: @@
 يوفر هذا التقريب الحد الأدنى من الخطأ، مما يسهل التعامل مع المصطلح وتوثيق المتجهات على أنها "[[الفضاء الدلالي|فضاء دلالي]]".
+ومن ثم سيحتوي متجه صف "المصطلح" <math>hat{textbf{t}}^T_i</math> على إدخالات <math>k</math> لتربطه إلى فضاء ذي أبعاد أقل.
+لا تتعلق هذه الأبعاد الجديدة بأي مفاهيم مفهومة، بل هي مجرد تقريب أقل بعدا للفضاء ذي الأبعاد الأعلى. وبالمثل ، فإن متجه "الوثيقة" <math>hat{textbf{d}}_j</math> هو تقريب في هذا الفضاء ذي الأبعاد الأدنى. نكتب هذا التقريب على النحو التالي:
+<math>X_k = U_k \Sigma_k V_k^T</math>
+يمكنك الآن القيام بمايلي:
+* تعرف على كيفية وجود المستندات ذات الصلة <math>j</math> و<math>q</math> في الفضاء منخفض الأبعاد من خلال مقارنة المتجهات <math>\Sigma_k \cdot \hat{\textbf{d}}_j </math> و <math>\Sigma_k \cdot \hat{\textbf{d}}_q </math> من خلال (نموذج الفضاء المتجه-تشابه جيب التمام).
+* مقارنة المصطلحين <math>i</math> و<math>p</math> من خلال مقارنة المتجهين <math>\Sigma_k \cdot \hat{\textbf{t}}_i</math> و<math>\ Sigma_k \cdot \hat{\textbf{t}}_p</math>. لاحظ أن <math>\hat{\textbf{t}}</math> أصبح الآن متجه عمود.
+* يمكن تجميع الوثائق وتمثيلات متجهات المصطلحات باستخدام خوارزميات التجميع التقليدية مثل خوارزمية "k-means" التصنيفية باستخدام مقاييس تشابه جيب التمام.
+* بالنسبة إلى استعلام ما، استعراض الاستعلام كمستند صغير، ومقارنته بالوثائق في الفضاء منخفض الأبعاد.
+للقيام بهذا الأخير، يجب عليك أولا ترجمة استعلامك إلى فضاء منخفض الأبعاد، ومن البديهي بعد ذلك أنه يجب عليك استخدام نفس التحويل الذي استخدمته على الوثائق:
+<math>\hat{\textbf{d}}_j = \Sigma_k^{-1}U_k^T{\textbf{d}}_j </math>
+لاحظ هنا أنه يمكننا استخلاص معكوس المصفوفة القطرية <math>Sigma_k</math> من خلال عكس كل قيمة غير صفرية داخل المصفوفة.
+هذا يعني أنه إذا كان لديك متجه استعلام <math>q</math>، فيجب عليك ترجمة <math>\hat{\textbf{q}} = \Sigma_k^{-1} U_k^T \textbf{q}</math> قبل مقارنتها بمتجهات المستند في الفضاء منخفض الأبعاد. يمكنك القيام بنفس الأمر مع المتجهات ذات المدى الزائف:
+<math>\textbf{t}_i^T = \hat{\textbf{t}}_i^T \Sigma_k V_k^T</math>
+<math>\hat{\textbf{t}}_i^T = \textbf{t}_i^T V_k^{-T} \Sigma_k^{-1} = \textbf{t}_i^T V_k \Sigma_k^{-1}</math>
+<math>\hat{\textbf{t}}_i = \Sigma_k^{-1}  V_k^T \textbf{t}_i</math>