تعود جذور معالجة اللغة الطبيعية إلى الخمسينيات. حيث نشر آلان تورينج في عام 1950 مقالًا بعنوان “ماكينات الحوسبة والذكاء” والذي اقترح ما يسمى الآن باختبار تورينج كمعيار للذكاء ، وهو مهمة تتضمن التفسير الآلي وتوليد اللغة الطبيعية ، ولكن في ذلك الوقت لم يتم توضيحها كمشكلة منفصلة عن الذكاء الاصطناعي.
ومر تطور معالجة اللغات الطبيعية بثلاث مراحل نلخصها كما يلي:
معالجة اللغات الطبيعية الرمزية (الخمسينيات وأوائل التسعينيات)
تم تلخيص فرضية معالجة اللغات الطبيعية الرمزية بشكل جيد من خلال تجربة الغرفة الصينية لجون سيرل: عند إعطاء الكمبيوتر مجموعة من القواعد (على سبيل المثال ، كتاب تفسير العبارات الشائعة باللغة الصينية ، مع أسئلة وإجاباتها) ، يحاكي الكمبيوتر فهم اللغة الطبيعية (أو مهام معالجة اللغات الطبيعية الأخرى) من خلال تطبيق تلك القواعد على البيانات التي تُقدّم له.
- الخمسينيات: تضمنت تجربة جورج تاون في عام 1954 ترجمة آلية بالكامل لأكثر من ستين جملة روسية إلى الإنجليزية. ادعى المؤلفون أنه في غضون ثلاث أو خمس سنوات ، ستكون الترجمة الآلية مشكلة محلولة. ومع ذلك ، كان التقدم الحقيقي أبطأ بكثير ، وبعد تقرير ALPAC في عام 1966 ، والذي وجد أن البحث الذي دام عشر سنوات قد فشل في تلبية التوقعات ، انخفض تمويل الترجمة الآلية بشكل كبير. تم إجراء القليل من البحث الإضافي في الترجمة الآلية حتى أواخر الثمانينيات عندما تم تطوير أول أنظمة ترجمة آلية إحصائية.
- الستينيات: بعض أنظمة معالجة اللغة الطبيعية الناجحة التي تم تطويرها في الستينيات هي SHRDLU ، وهو نظام لغة طبيعية يعمل في “عوالم الكتل” المقيدة بمفردات محدودة ، و ELIZA ، وهي محاكاة لطبيب نفسي روجيري (أي مدرسة العلاج المتمركز حول الشخص) ، كتبها جوزيف وايزنباوم بين عامي 1964 و 1966. حيث قدمت إليزا أحيانًا تفاعلًا شبيهًا بالإنسان بشكل مذهل وذلك دون استخدام أي معلومات تقريبًا عن الفكر أو المشاعر الإنسانية. لكن عندما يتجاوز المريض المفترض قاعدة المعرفة الصغيرة جدًا ، فقد تتغير اجابة النظام وتقدم إليزا في هذه الحالة استجابة عامة ، على سبيل المثال ، الرد على “رأسي يؤلمني” بعبارة “لماذا تقول أن رأسك يؤلمك؟”.
- السبعينيات: خلال السبعينيات ، بدأ العديد من المبرمجين بكتابة “الأنطولوجيا المفاهيمية” ، والتي نظمت معلومات العالم الحقيقي في بيانات مفهومة بواسطة الكمبيوتر. من الأمثلة على ذلك أنظمة Margie وSAM وPAM من تطوير روجر شانك وريتشارد كولنجفورد وروبرت ولنسكي على الترتيب خلال عقد السبعينيات. وخلال هذه الفترة أيضاً ، تمت كتابة العديد من أولى برامج الدردشة الآلية (على سبيل المثال PARRY).
- الثمانينيات: تمثل الثمانينيات وأوائل التسعينيات من القرن الماضي ذروة الأساليب الرمزية في مجال المعالجة اللغوية الطبيعية. تضمنت مجالات التركيز في ذلك الوقت البحث حول التحليل القائم على القواعد (على سبيل المثال ، تطوير HPSG كتفعيل حسابي للقواعد التوليدية) ، المورفولوجيا (على سبيل المثال ، مورفولوجيا ذات المستويين) ، علم الدلالات (على سبيل المثال ، خوارزمية ليسك) ومجالات أخرى من فهم اللغة الطبيعية (على سبيل المثال ، في نظرية البنية البلاغية). استمرت مجالات البحث الأخرى ، على سبيل المثال تطوير chatterbots مع Racter و Jabberwacky. كان التطور المهم (الذي أدى في النهاية إلى التحول الإحصائي في التسعينيات) هو الأهمية المتزايدة للتقييم الكمي في هذه الفترة.
المعالجة اللغوية الطبيعية الإحصائية (التسعينيات – 2010)
حتى بداية الثمانينيات ، كانت معظم أنظمة معالجة اللغة الطبيعية تعتمد على مجموعات معقدة من القواعد المكتوبة بخط اليد. ومع ذلك ، بدءًا من أواخر الثمانينيات ، كانت هناك ثورة في معالجة اللغة الطبيعية مع إدخال خوارزميات التعلم الآلي لمعالجة اللغة. كان هذا بسبب الزيادة المطردة في قوة الحوسبة والتقليل التدريجي لهيمنة نظريات تشومسكي في علم اللغة (مثل القواعد التحويلية) ، التي أدت أسسها النظرية إلى تثبيط هذا النوع من لسانيات المتون الذي يقوم عليه نهج التعلم الآلي لمعالجة اللغة.
- التسعينيات: حدثت العديد من النجاحات المبكرة الملحوظة في الأساليب الإحصائية في البرمجة اللغوية العصبية في مجال الترجمة الآلية ، ويرجع ذلك بشكل خاص إلى العمل في IBM Research. كانت هذه الأنظمة قادرة على الاستفادة من مجموعة النصوص متعددة اللغات الحالية التي أصدرها البرلمان الكندي والاتحاد الأوروبي نتيجة للقوانين التي تدعو إلى ترجمة جميع الإجراءات الحكومية إلى جميع اللغات الرسمية للأنظمة الحكومية المقابلة . ومع ذلك ، اعتمدت معظم الأنظمة الأخرى على الشركات التي تم تطويرها خصيصًا للمهام التي تنفذها هذه الأنظمة ، والتي كانت (ولا تزال في كثير من الأحيان) قيدًا رئيسيًا في نجاح هذه الأنظمة. نتيجة لذلك ، تم إجراء قدر كبير من البحث في أساليب التعلم بشكل أكثر فعالية من كميات محدودة من البيانات.
- العقد الأول من القرن الحادي والعشرين: مع نمو الويب ، أصبحت كميات متزايدة من بيانات اللغة الخام (الغير موسومة) متاحة منذ منتصف التسعينيات. وبالتالي ، فقد ركزت الأبحاث بشكل متزايد على خوارزميات التعلم غير الخاضعة للإشراف أو شبه المُشرَف عليها. يمكن أن تتعلم هذه الخوارزميات من البيانات التي لم يتم وسمها يدويًا بالإجابات المطلوبة أو باستخدام مجموعة من البيانات الموسومة وغير الموسومة. بشكل عام ، هذه المهمة أصعب بكثير من التعلم الخاضع للإشراف ، وعادة ما تنتج نتائج أقل دقة لكمية معينة من بيانات الإدخال. ومع ذلك ، هناك قدر هائل من البيانات غير الموسومة المتاحة (بما في ذلك ، من بين أشياء أخرى ، المحتوى الكامل لشبكة الويب العالمية) ، والتي يمكن أن تعوض غالبًا عن النتائج الأقل جودة إذا كانت الخوارزمية المستخدمة ذات تعقيد زمني منخفض بما يكفي يكون عمليا.
المعالجة اللغوية الطبيعية العصبية (الوقت الحاضر)
في عام 2010 ، أصبحت أساليب التعلم التمثيلي والتعلم الآلي على غرار الشبكة العصبية العميقة منتشرة على نطاق واسع في معالجة اللغة الطبيعية ، ويرجع ذلك جزئيًا إلى سلسلة من النتائج التي تظهر أن مثل هذه التقنيات يمكن أن تحقق نتائج متطورة في العديد من مهام اللغة الطبيعية ، على سبيل المثال في نمذجة اللغة والتحليل وغيرها الكثير. هذا مهم بشكل متزايد في الطب والرعاية الصحية ، حيث يتم استخدام البرمجة اللغوية العصبية لتحليل الملاحظات والنصوص في السجلات الصحية الإلكترونية التي قد يتعذر الوصول إليها للدراسة عند السعي لتحسين الرعاية.
المراجع:
Wikipedia contributors. “Natural language processing.” Wikipedia, The Free Encyclopedia. Wikipedia, The Free Encyclopedia, 9 Aug. 2021. Web. 11 Aug. 2021.