ody> http://go.ad2up.com/afu.php?id=922540

الأفتتاحية وتحية واجبة

بسم الله الرحمن الرحيم

قل اللهم مالك الملك تؤتي الملك من تشاء وتنزع الملك ممن تشاء وتعز من تشاء وتذل من تشاء بيدك الخير إنك على كل شيئ قدير ) صدق الله العظيم .. ( آل عمران 26 )

آخر الموضوعات ...

اهلا وسهلا welcome

أتيت اليكم من الزمن الجميل -
باقة ورد لكل زائر
..... مع كل الحب والتقدير

السبت، 25 نوفمبر 2017

معالجة اللغات الطبيعية Natural Language Processing NLP

معالجة اللغات الطبيعية Natural Language Processing NLP

المقصود بالمصطلح هو معالجة اللغات الطبيعية من قبل الحاسبات، ولأهمية اللغة عند البشر فإن فكرة منح الحاسبات قابلية لمعالجة اللغات البشرية موجودة منذ ظهور فكرة الحاسبات [2]. ويصنف مجال اللغات الطبيعية تحت تخصص علوم الحاسب Computer Science والذكاء الإصطناعي Artificial Intelligence كما تعتبر التطبيقات المتعلقة بمجال معالجة اللغات الطبيعية من أصعبها في مجال الذكاء الإصطناعي AI-complete، أيضا يتقاطع مجال معالجة اللغات الطبيعية مع فروع علمية أخرى مثل اللسانيات أو اللغاويات Lingustics وهندسة الحاسب والإلكترونيات خاصة في مجال معالجة الكلام المنطوق Speech، إضافة إلى علم الإحصاء.

منهجيات معالجة اللغات الطبيعية NLP Methods

يوجد منهجين متبعين في معالجة اللغات الطبيعية، الأول هو المنهج القانوني rule-based method والآخر إحصائي statistical، فالمنهج الأول يكون بوضع القوانين مسبقًا غالبا من قبل خبراء لغويين ومن ثم تصميم البرامج التي تتعلق بأحد مجالات اللغات الطبيعية وفقا لتلك القوانين ولا يتطلب ذلك تعلم آلي (Machine Learning) من قبل الحاسبات، والمنهج الآخر هو إحصائي يتطلب وجود بيانات معدة مسبقًا بطريقة تجعل الحاسب قادرًا على تعلم القوانين منها بحيث أن يتم إعداد هذه البيانات من قبل أشخاص غالبا ليسوا في مستوى الخبراء كما في المنهج السابق، وحاليا معظم تطبيقات وتقنيات معالجة اللغات الطبيعية تتبع المنهج الإحصائي حيث أنه مع سرعة الحاسبات وتطورها منذ التسعينات في القرن الماضي، أصبح من الممكن معالجة بيانات كبيرة في وقت قصير نسبيا، فضلا عن أن المنهج الأول يتطلب وجود خبراء وغالبا ما يكونوا مكلفين ماديا و وقتيا. وقد توضح الفقرة التالية الفرق بين المجالين بشكل أكبر.

مجالات معالجة اللغات الطبيعية الفرعية

يندرج تحت مجال معالجة اللغات الطبيعية عدة فروع وتطبيقات، ويمكن تقسيمها على عدة مستويات، مستوى صرفي lexical (على مستوى الكلمة المفردة)، ومستوى نحوي syntax (على مستوى الجملة وتركيبها نحويا)، ومستوى المعنى semantic وهو على مستوى السياق context والمعنى النهائي في اللغة.

المجالات ذات العلاقة بالمستوى الصرفي
  • تصنيف أقسام الكلام Part-of-Speech Tagging: ويعني إستخراج أقسام الكلام من النص (أقسام الكلام مثل فعل ماض، فعل مضارع، فعل أمر، صفة، اسم، حال ..إلخ)، فيتم تصنيف كل كلمة في النص إلى القسم الذي يمثلها، ويعد تصنيف أقسام الكلام من الأمور الرئيسية التي تستخدم تقريبا في معظم تطبيقات ومجالات معالجة اللغات الطبيعية. ولتوضيح الفرق بين المنهج القانوني والمنهج الإحصائي، فإن في مجال تصنيف أقسام الكلام باستخدام المنهج القانوني يصمم البرنامج الذي يصنف أقسام الكلام بناء على القواعد اللغوية المعدة مسبقا، فمثلا في اللغة العربية يوجد الأوزان مثل فعل، أفعل، فاعل، مفعول، مفاعيل … إلخ، وعليها يمكن تصميم برنامج يطابق هذه الأوزان مع كل كلمة ومن ثم يحدد إلى أي أقسام الكلام تنتمي هذه الكلمة، في المقابل في المنهج الإحصائي يتم تزويد الحاسب بأمثلة كثيرة لكلمات موسومة بالقسم الذي تنتمي إليه، ومن ثم يتعلم الحاسب القوانين بنفسه من هذه الأمثلة، فمثلا يمكن إدخال الجملة التالية للبرنامج المصمم مسبقا لهذا الغرض: “أكل/(فعل ماض) صخر(اسم علم) الغداء(اسم معرف ب ال)”، ومع كثر الأمثلة يتعلم الحاسب أنه مثلا لا يمكن أن يلحق الفعل فعلا آخر مباشرة وغيرها من القوانين. ولعل أشهر الخوازميات والتقنيات المستخدم في تصنيف أقسام الكلام هي نموذج ماركوف المخفي Hidden Markov Model HMM وخوارزمية فايتيربي Viterbi Algorithm.

المجالات ذات العلاقة بالمستوى النحوي

  • التحليل الصرفي Syntactic Parsing: ويعني تحليل الجملة (أو إعرابها) آليا، فبعكس تصنيف أقسام الكلام الذي يتم على مستوى الكلمة الواحدة، في التحليل الصرفي يتم النظر للجملة ككل ومن ثم تحليلها (أو إعرابها)، وهناك عدة خوارزميات وطرق للتحليل النحوي، منها القديم الذي يتبع المنهج القانوني، ومنها الحديث نسبيا والذي يتبع المنهج الإحصائي، ولعل أشهر الخوارزميات CKY Parsing، The Earley Parsing, Collins Parser بالإضافة إلى التحليل الصرفي بالإعتماد على تبعية الكلمات لكلمات أخرى في الجملة Dependency Parsing ويوجد عدة خوارزميات في التحليل الصرفي التبعي مثل Arc-Eager Dependency Parsing، ولا يسع المجال لذكر الفرق بين هذه الخوارزميات والطرق في هذه المقالة.

المجالات ذات العلاقة بالمستوى المعنوي:

  • تمثيل المعنى Meaning Representation: ويعني تمثيل المعنى المراد من اللغة بشكل آخر أسهل للتعامل معه في الحاسب ولعل أشهر طرق تمثيل المعنى في الحاسب هو إستخدام المنطق الإسنادي First-order Logic، حيث يتم تمثيل المعنى من الجملة بصيغة رياضية منطقية، فمثلا جملة “أكل صخر الطعام” يمكن تمثيلها كالتالي (بعد إستبعاد الرموز الرياضية بغرض التسهيل): يوجد حدث ح كالتالي: حدث(ح، أكل) و أكل(ح، صخر) و مأكول(ح، الطعام) و زمن (ح، ماضي). ولعل أهم مشاكل المنطق الإسنادي هو صعوبة تمثيل المعاني الأكثر تعقيدا مثل الإعتقادات، فمثلا عند تثميل جملة مثل “يعتقد زيد أن الأرض مسطحة” فهنا يصعب تمثيل المعنى باستخدام المنطق الإسنادي، لأن تمثيل الجملة السابقة بحيث أن يكون وجود حدث الإعتقاد صحيحا يجعل بالضرورة أن جملة “الأرض مسطحة” صحيحة رغم أنها غير صحيحة ولكن كون إن زيد يعتقد ذلك هو حدث صحيح.
 

ليست هناك تعليقات:

إرسال تعليق