في عالم الذكاء الاصطناعي، يعد التقييم الدقيق لقدرة النماذج على فهم قضايا الرفاهية الحيوانية أمراً بالغ الأهمية. وقد أظهر البحث الجديد تحت اسم MANTA (تقييم متعدد التفاعلات للتفكير غير البشري والمواءمة) كيف يمكن للإطارات الديناميكية أن تقدم رؤى مبتكرة وواقعية حول أداء نماذج اللغات الضخمة (Large Language Models).

تعتبر النماذج الفردية مثل AnimalHarmBench (AHB) أساسية في وضع معايير قياسية، لكنها تفوت على الكثير من العوائق التي قد تواجه النماذج أثناء التفاعل مع أسئلة متابعة تقدم حججاً اقتصادية أو اجتماعية. هنا يأتي دور MANTA الذي يتم بناءه على منصة Inspect AI، والذي يقوم بإجراء اختبارات ضغط تتحقق من البرنامج في سيناريوهات حقيقية، مما يوفر تصورات أدق عن كيفية استجابة النماذج لتحديات مختلفة.

من خلال استخدام أسئلة متابعة تم توليدها بشكل عدائي، يستطيع MANTA تقييم النموذج وفقاً لمجموعة من الأبعاد المستمدة من AHB، مما يقدم رؤية شاملة حول الأداء عبر مقياس متصل من 0 إلى 1.

أظهرت النتائج الأولية، التي تم الحصول عليها من تقييمات نماذج مثل claude-sonnet-4-20250514 وopenai/gpt-4o، أن الإطار يتمتع بموثوقية جيدة في إطار الرفاهية عند السؤال الأول، لكن السؤال الثاني يظهر تبايناً كبيراً في الأداء. كما تم التعرف على أن قدرة النماذج على الاستدلال بناءً على الأدلة تعتبر الأضعف عبر جميع النماذج.

علاوة على ذلك، تم تقديم STYLEJUDGE، دراسة تقييمة مضبوطة تحتوي على أربعة قضاة، مما يكشف عن انحياز نظامي في تقييم النماذج، الأمر الذي يحمل آثاراً مباشرة على تصميم مقياس MANTA.

إذا كنت ترغب في استكشاف كيفية تأثير هذه الأبحاث على أدوات الذكاء الاصطناعي الحالية والمستقبلية، يمكنك زيارة [رابط_المقال].