في عالم الذكاء الاصطناعي، يعد [التقييم](/tag/التقييم) الدقيق لقدرة [النماذج](/tag/النماذج) على [فهم](/tag/فهم) قضايا [الرفاهية](/tag/الرفاهية) الحيوانية أمراً بالغ الأهمية. وقد أظهر [البحث](/tag/البحث) الجديد تحت اسم [MANTA](/tag/manta) ([تقييم](/tag/تقييم) متعدد [التفاعلات](/tag/التفاعلات) للتفكير غير البشري والمواءمة) كيف يمكن للإطارات الديناميكية أن تقدم [رؤى](/tag/رؤى) مبتكرة وواقعية حول [أداء](/tag/أداء) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)).

تعتبر [النماذج](/tag/النماذج) الفردية مثل AnimalHarmBench (AHB) أساسية في وضع [معايير](/tag/معايير) قياسية، لكنها تفوت على الكثير من العوائق التي قد تواجه [النماذج](/tag/النماذج) أثناء [التفاعل](/tag/التفاعل) مع أسئلة متابعة تقدم حججاً اقتصادية أو [اجتماعية](/tag/اجتماعية). هنا يأتي دور [MANTA](/tag/manta) الذي يتم بناءه على [منصة](/tag/منصة) Inspect AI، والذي يقوم بإجراء [اختبارات](/tag/اختبارات) ضغط تتحقق من البرنامج في سيناريوهات حقيقية، مما يوفر [تصورات](/tag/تصورات) أدق عن كيفية استجابة [النماذج](/tag/النماذج) لتحديات مختلفة.

من خلال استخدام أسئلة متابعة تم توليدها بشكل عدائي، يستطيع [MANTA](/tag/manta) [تقييم النموذج](/tag/[تقييم](/tag/تقييم)-النموذج) وفقاً لمجموعة من الأبعاد المستمدة من AHB، مما يقدم [رؤية](/tag/رؤية) شاملة حول [الأداء](/tag/الأداء) [عبر](/tag/عبر) مقياس متصل من 0 إلى 1.

أظهرت النتائج الأولية، التي تم الحصول عليها من [تقييمات](/tag/تقييمات) [نماذج](/tag/نماذج) مثل claude-sonnet-4-20250514 وopenai/gpt-4o، أن الإطار يتمتع بموثوقية جيدة في إطار [الرفاهية](/tag/الرفاهية) عند السؤال الأول، لكن السؤال الثاني يظهر تبايناً كبيراً في [الأداء](/tag/الأداء). كما تم [التعرف](/tag/التعرف) على أن قدرة [النماذج](/tag/النماذج) على [الاستدلال](/tag/الاستدلال) بناءً على [الأدلة](/tag/الأدلة) تعتبر الأضعف [عبر](/tag/عبر) جميع [النماذج](/tag/النماذج).

علاوة على ذلك، تم تقديم STYLEJUDGE، [دراسة](/tag/دراسة) تقييمة مضبوطة تحتوي على أربعة قضاة، مما يكشف عن [انحياز](/tag/انحياز) نظامي في [تقييم](/tag/تقييم) النماذج، الأمر الذي يحمل آثاراً مباشرة على [تصميم](/tag/تصميم) مقياس [MANTA](/tag/manta).

إذا كنت ترغب في [استكشاف](/tag/استكشاف) كيفية تأثير هذه [الأبحاث](/tag/الأبحاث) على [أدوات](/tag/أدوات) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) الحالية والمستقبلية، يمكنك زيارة [رابط_المقال].