في خطوة رائدة نحو تعزيز تطوير اللغات ذات الموارد المحدودة، تم الإعلان عن إطلاق BenHalluEval، وهو إطار تقييم مخصص لدراسة الهلاوس في نماذج اللغات الكبيرة (LLMs) للغة البنغالية، والتي تُعتبر سادس أكثر اللغات تحدثاً في العالم. حتى الآن، لم يُجرَ أي تقييم منهجي لمشكلة الهلاوس التي يمكن أن تنتج عن هذه النماذج في سياق اللغة البنغالية.
يوفر BenHalluEval تقييمًا دقيقًا وموحدًا للهلاوس، حيث يغطي أربعة مجالات رئيسية تشمل: الإجابة عن الأسئلة التوليدية (Generative Question Answering - GQA)، والأسئلة الممزوجة بين البنغالية والإنجليزية، والتلخيص، والاستدلال. يتم بناء 12,000 حالة هلاوس باستخدام نموذج GPT-5.4 عبر اثني عشر نوعًا من الهلاوس المحددة لكل مهمة، مستندة إلى ثلاثة قواعد بيانات موجودة باللغة البنغالية.
تعتمد الطريقة على بروتوكول مزدوج لتقييم سبعة نماذج لغة كبيرة، حيث يتم قياس معدل الإيجابيات الكاذبة على حالات الحقيقة (Track A) ومعدل اكتشاف الهلاوس على الحالات الهلوسية (Track B). ولتجنب التحيز في النتائج، تم اقتراح مقياس جديد يسمى BenHalluScore، الذي يكشف عن تفاوت كبير في تصحيح الهلاوس والذي يتراوح بين 7.72% و55.42% عبر النماذج والمهام المختلفة.
كما تم تطبيق تقنية "سلسلة الفكر" كاستراتيجية تخفيف، حيث تُعدل توزيعات الاستجابات دون أن تحسن بشكل دائم من تمييز الهلاوس. يضع BenHalluEval أول معيار مخصص للهلاوس باللغة البنغالية، مشيرًا إلى محدودية طرق التقييم الأحادية المسار.
يسلط هذا التطور الضوء على أهمية تطوير نماذج ذكاء اصطناعي أكثر دقة وموثوقية للغات ذات الموارد الأقل، مما يجعل هذا المشروع خطوة أساسية نحو تحسين التقنية في هذا المجال.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة في تقييم الهلاوس: إطار BenHalluEval للغة البنغالية يُغير قواعد اللعبة في نماذج الذكاء الاصطناعي!
يقدم BenHalluEval إطاراً مفصلاً لتقييم الهلاوس في نماذج اللغات الكبيرة (LLMs) الخاصة باللغة البنغالية، حيث يسلط الضوء على التحديات والفرص في هذا المجال. يُعد هذا التطور خطوة هامة نحو تحسين أداء نماذج الذكاء الاصطناعي في اللغات ذات الموارد المحدودة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
