الفضاء الدلالي

الفضاء الدلالي يهدف الفضاء الدلالي في مجال اللغة الطبيعية إلى إنشاء تمثيل أو تمثيلات للغة الطبيعية قادرة على فهم المعاني، ينبع الدافع الأصلي للفضاءات الدلالية من تحدِّيَيْنِ أساسيينِ للُّغة الطبيعية هما: عدم التطابق في المفردات "حقيقة أنه يمكننا التعبير عن نفس المعنى بطرق عديدة" والغموض في اللغة الطبيعية "حقيقة وجود معانٍ متعددةٍ لنفس المصطلح".^[1]

تسعى تطبيقات الفضاء الدلالي في معالجة اللغة الطبيعية (NLP) إلى التغلب على قيود النهج القائمة على القواعد أو النماذج التي تعمل على مستوى الكلمة المفتاحية. أبرز عيوب هذه الأساليب هو هشاشتها، وصعوبة إنشاء أنظمة معالجة اللغة الطبيعية (NLP) قائمة على القواعد أو مجموعات بيانات تدريبية للتعلم الآلي، حيث يتطلب ذلك الكثير من العمل اليدوي.^[2]^[3]

تعتمد النماذج المستندة على القواعد والنماذج المستندة على التعلم الآلي على تحليل الكلمات الرئيسية. وتختفي دقة هذه النماذج كليا إذا اختلفت المفردات عن تلك المحددة في القواعد أو عن المواد التدريبية المستخدمة في هذه النماذج الإحصائية.

يعود تاريخ البحث في الفضاء الدلالي إلى أكثر من 20 عامًا. ونشرت ورقتان علميتان في عام 1996، جذبتا الكثير من الانتباه حول الفكرة العامة لإنشاء الفضاءات الدلالية: التحليل الدلالي الكامن والفضاء الفائق التناظري للغة (HAL).^[4]^[5] ورغم ذلك، ظل اعتمادها محدودًا بسبب متطلبات الجهد الحاسوبي الكبيرة لإنشاء واستخدام تلك الفضاءات الدلالية.

حقق تحليل الدلالة الصريحة (ESA) في عام 2007 سبْقًا في مجال دقة نمذجة العلاقات التشاركية بين الكلمات، مثل العلاقة بين "الشبكة والعنكبوت"، و"الولاعة والسيجارة". على عكس العلاقات المترادفة، مثل العلاقة بين "الحوت والدلفين" و "رائد الفضاء والسائق".^[6]

شهدت تقنيات الشبكات العصبية تطورًا ملحوظًا في السنوات الأخيرة، بالتزامن مع ظهور أساليب جديدة أخرى مثل المُوَتِّر أو المُمْتَدّ (بالإنجليزية: tensor)‏. وقد أدى هذا التطور إلى ظهور مجموعة من التطورات الحديثة في مجال معالجة اللغة الطبيعية، مثل (بالإنجليزية: Word2vec)‏ (تضمين الأشعة الكلمات ) من جوجل^[7]، و(بالإنجليزية: GloVe)‏ (المتجهات العالمية) من جامعة ستانفورد^[8]، و(بالإنجليزية: fastText)‏ من مختبرات بحث الذكاء الاصطناعي في فيسبوك^[9].

المراجع

↑ Baroni، Marco؛ Lenci، Alessandro (2010). "Distributional Memory: A General Framework for Corpus-Based Semantics". Computational Linguistics. ج. 36 ع. 4: 673–721. CiteSeerX:10.1.1.331.3769. DOI:10.1162/coli_a_00016. S2CID:5584134.
↑ Scott C. Deerwester؛ Susan T. Dumais؛ Thomas K. Landauer؛ George W. Furnas؛ Richard A. Harshen (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science.
↑ Xing Wei؛ W. Bruce Croft (2007). "Investigating retrieval performance with manually-built topic models". Proceeding RIAO '07 Large Scale Semantic Access to Content (Text, Image, Video, and Sound). Riao '07: 333–349.
↑ "LSA: A Solution to Plato's Problem". lsa.colorado.edu. اطلع عليه بتاريخ 2016-04-19.
↑ Lund, Kevin; Burgess, Curt (1 Jun 1996). "Producing high-dimensional semantic spaces from lexical co-occurrence". Behavior Research Methods, Instruments, & Computers (بEnglish). 28 (2): 203–208. DOI:10.3758/BF03204766. ISSN:0743-3808.
↑ Evgeniy Gabrilovich & Shaul Markovitch (2007). "Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis" (PDF). Proc. 20th Int'l Joint Conf. On Artificial Intelligence (IJCAI). Pp. 1606–1611.
↑ Tomas Mikolov؛ Ilya Sutskever؛ Kai Chen؛ Greg Corrado؛ Jeffrey Dean (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].
↑ Jeffrey Pennington؛ Richard Socher؛ Christopher D. Manning (2014). "GloVe: Global Vectors for Word Representation" (PDF).
↑ Mannes، John (2 مايو 2017). "Facebook's fastText library is now optimized for mobile". TechCrunch. اطلع عليه بتاريخ 2018-01-12.

[1] Baroni، Marco؛ Lenci، Alessandro (2010). "Distributional Memory: A General Framework for Corpus-Based Semantics". Computational Linguistics. ج. 36 ع. 4: 673–721. CiteSeerX:10.1.1.331.3769. DOI:10.1162/coli_a_00016. S2CID:5584134.

[2] Scott C. Deerwester؛ Susan T. Dumais؛ Thomas K. Landauer؛ George W. Furnas؛ Richard A. Harshen (1990). "Indexing by Latent Semantic Analysis" (PDF). Journal of the American Society for Information Science.

[3] Xing Wei؛ W. Bruce Croft (2007). "Investigating retrieval performance with manually-built topic models". Proceeding RIAO '07 Large Scale Semantic Access to Content (Text, Image, Video, and Sound). Riao '07: 333–349.

[4] "LSA: A Solution to Plato's Problem". lsa.colorado.edu. اطلع عليه بتاريخ 2016-04-19.

[5] Lund, Kevin; Burgess, Curt (1 Jun 1996). "Producing high-dimensional semantic spaces from lexical co-occurrence". Behavior Research Methods, Instruments, & Computers (بEnglish). 28 (2): 203–208. DOI:10.3758/BF03204766. ISSN:0743-3808.

[6] Evgeniy Gabrilovich & Shaul Markovitch (2007). "Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis" (PDF). Proc. 20th Int'l Joint Conf. On Artificial Intelligence (IJCAI). Pp. 1606–1611.

[7] Tomas Mikolov؛ Ilya Sutskever؛ Kai Chen؛ Greg Corrado؛ Jeffrey Dean (2013). "Distributed Representations of Words and Phrases and their Compositionality". arXiv:1310.4546 [cs.CL].

[8] Jeffrey Pennington؛ Richard Socher؛ Christopher D. Manning (2014). "GloVe: Global Vectors for Word Representation" (PDF).

[9] Mannes، John (2 مايو 2017). "Facebook's fastText library is now optimized for mobile". TechCrunch. اطلع عليه بتاريخ 2018-01-12.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]