تعتبر التعبيرات الاصطلاحية (Idiomatic expressions) إحدى أكبر التحديات التي تواجه معالجة اللغات الطبيعية المتعددة (Multilingual NLP). فمعاني هذه التعبيرات تتغير بين الاستخدامات المجازية والحرفية، وغالباً ما تتطلب فهماً عميقاً للسياق من أجل التفسير الدقيق.

قبل الحديث عن مجموعة البيانات الجديدة، قد ركزت الدراسات السابقة عادةً على اللغات ذات الموارد العالية (High-resource languages) وتقييم الأسئلة المتعلقة بمعاني التعبيرات الاصطلاحية بشكل منفصل، متجاهلة النقاشات الواقعية التي تجري في الحياة اليومية.

لذا، يسرنا أن نقدم لكم مجموعة بيانات MIDI، التي تتضمن تعبيرات اصطلاحية مأخوذة من 3 لغات ذات موارد عالية، و3 لغات متوسطة، و12 لغة منخفضة الموارد. تم تجميع هذه البيانات بواسطة متحدثين محليين، مما يضمن دقة وجودة المعلومات.

ما يميز مجموعة بيانات MIDI هو أن التعبيرات لديها سياقات جملية وتفاعلية، مما يوفر فهماً كاملاً لكل من المعاني الحرفية والمجازية. وكشف اختبار نظم الذكاء الاصطناعي الحديثة أن فهم التعبيرات الاصطلاحية ينخفض بشكل ملحوظ في اللغات منخفضة الموارد، وأن التفسيرات الحرفية تكون وصعوبة الفهم أعلى في جميع فئات الموارد بالمقارنة مع المجازية.

علاوة على ذلك، رغم أن السياقات التفاعلية تعزز الأداء، إلا أنها لا تقضي على الفجوات الحالية في الفهم. من خلال اختبارات مدروسة وتدخلات على التمثيلات المخفية، تمكنا من فصل عملية التذكر عن التفكير، مما يكشف عن قيود أساسية في النماذج الحالية.

في ختام الحديث، تبدو مجموعة بيانات MIDI خطوة نحو الأمام في تعزيز فهم التعبيرات الاصطلاحية عبر اللغات، مما يسهم في تقدم الذكاء الاصطناعي وتطبيقاته اليومية. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!