في عالم معالجة اللغة الطبيعية (Natural Language Processing)، تشكل التعابير الاصطلاحية تحدياً مستمراً، حيث تتسم معانيها بأنها غير تركيبية (non-compositional) وتعتمد على السياق (context-dependent)، مما يجعل تقاطعها بين اللغات أمراً معقداً. لسد هذه الفجوة، تم تقديم نظام إديومX، وهو معيار متعدد اللغات يستهدف فهم هذه التعابير واسترجاعها وتفسيرها.

لقد تم بناء إديومX عبر مسار متعدد المراحل يعزز من فاعليته، حيث يجمع بين استخراج الموارد المعجمية (lexical resource extraction)، والتطبيع الواسع النطاق (large-scale normalization)، بالإضافة إلى تحسين نماذج اللغات الضخمة (Large Language Models) بأسلوب تم التحكم فيه، ثم تأتي مرحلة التحقق الهيكلي. تحتوي مجموعة البيانات الناتجة عن هذا الجهد على أكثر من 190,000 مثال سياقي موزع على 12,000 تعبير اصطلاحي، مع تمثيلات دلالية متقاربة باللغات الإنجليزية، والعربية، والفرنسية، بالإضافة إلى بيانات لغوية غنية.

يتضمن إديومX معياراً موحداً يتألف من أربع مهام رئيسية تتعلق بالكشف عن التعابير الاصطلاحية، واسترجاعها من السياقات، بالإضافة إلى استرجاع التعابير من اللغة العربية إلى الإنجليزية، وتفسير هذه التعابير. يتجاوز هذا النظام التقييم التقليدي من التعرف التصويري إلى التأسيس الدلالي واسترجاع المعاني القابلة للتفسير.

تظهر التجارب أن نماذج المحولات السياقية (contextual transformer models) تحسن بشكل كبير من قدرة الكشف عن التعابير الاصطلاحية، بينما تعزز النماذج الهجينة في عملية الاسترجاع وإعادة الترتيب كلاً من استرجاع التعابير اللغة الواحدة (monolingual) والعابرة للغات (cross-lingual). كما أثبت إديومX أنه يمكن نمذجة تفسير التعابير الاصطلاحية كعملية استرجاع دلالية، مما يضيف بُعداً جديداً قابل للتفسير في هذا المجال.

باختصار، يمثل إديومX معياراً شمولياً لدراسة اللغة الاصطلاحية، مما يسهل الانتقال من الاكتشاف إلى الاسترجاع والتفسير الدلالي، ويقدم إطاراً يمكن توسيعه ليشمل لغات إضافية ومهام التفكير التصويري.