في خطوة رائدة نحو تعزيز تطوير اللغات ذات الموارد المحدودة، تم الإعلان عن إطلاق BenHalluEval، وهو إطار تقييم مخصص لدراسة الهلاوس في نماذج اللغات الكبيرة (LLMs) للغة البنغالية، والتي تُعتبر سادس أكثر اللغات تحدثاً في العالم. حتى الآن، لم يُجرَ أي تقييم منهجي لمشكلة الهلاوس التي يمكن أن تنتج عن هذه النماذج في سياق اللغة البنغالية.

يوفر BenHalluEval تقييمًا دقيقًا وموحدًا للهلاوس، حيث يغطي أربعة مجالات رئيسية تشمل: الإجابة عن الأسئلة التوليدية (Generative Question Answering - GQA)، والأسئلة الممزوجة بين البنغالية والإنجليزية، والتلخيص، والاستدلال. يتم بناء 12,000 حالة هلاوس باستخدام نموذج GPT-5.4 عبر اثني عشر نوعًا من الهلاوس المحددة لكل مهمة، مستندة إلى ثلاثة قواعد بيانات موجودة باللغة البنغالية.

تعتمد الطريقة على بروتوكول مزدوج لتقييم سبعة نماذج لغة كبيرة، حيث يتم قياس معدل الإيجابيات الكاذبة على حالات الحقيقة (Track A) ومعدل اكتشاف الهلاوس على الحالات الهلوسية (Track B). ولتجنب التحيز في النتائج، تم اقتراح مقياس جديد يسمى BenHalluScore، الذي يكشف عن تفاوت كبير في تصحيح الهلاوس والذي يتراوح بين 7.72% و55.42% عبر النماذج والمهام المختلفة.

كما تم تطبيق تقنية "سلسلة الفكر" كاستراتيجية تخفيف، حيث تُعدل توزيعات الاستجابات دون أن تحسن بشكل دائم من تمييز الهلاوس. يضع BenHalluEval أول معيار مخصص للهلاوس باللغة البنغالية، مشيرًا إلى محدودية طرق التقييم الأحادية المسار.

يسلط هذا التطور الضوء على أهمية تطوير نماذج ذكاء اصطناعي أكثر دقة وموثوقية للغات ذات الموارد الأقل، مما يجعل هذا المشروع خطوة أساسية نحو تحسين التقنية في هذا المجال.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.