مع تزايد استخدام نماذج اللغات الضخمة (Large Language Models) كعملاء ذكيين في مختلف المجالات، أصبح من الضروري إجراء تقييم موثوق لقدراتها. لكن في كثير من الأحيان، تكون نتائج الاختبارات مشوشة بسبب كيفية تنفيذ النماذج وطرق القياس المستخدمة، مما يجعل المقارنات بين النتائج معقدة.
لذا، تم تقديم إطار موحد لتقييم قدرات الوكلاء في هذه النماذج. يعتمد هذا الإطار على نظام تكوين موحد يدمج مقاييس مختلفة ضمن صيغة تعليمات وأدوات وبيئات قياسية. إذ يتم تنفيذ الوكلاء من خلال هيكل ثابت على نمط ReAct، مما يتيح لهم العمل ضمن بيئة محكمة، إلى جانب توفير إعدادات غير متصلة لتعويض تقلبات البيئات الحية.
من خلال هذا الإطار، تمتد جهود الباحثين لتوحيد منهجيات التقييم مع مراعاة معايير نجاح المهام الأصلية لكل اختبار. بالإضافة إلى ذلك، تم تقديم مقاييس موحدة لاستهلاك الموارد وتصنيف لأخطاء اتخاذ القرار والتنفيذ.
تم تطبيق هذا الإطار على 7 اختبارات شهيرة تغطي 24 مجالاً، تتنوع بين سيناريوهات الوكيل الواحد والوكيل المتعدد، وكذلك السيناريوهات الحرجة للسلامة. وقد أسفرت التحليلات التي أُجريت على 400000 تجربة و5 مليارات توكن على 15 نموذجاً، عن نتائج مثيرة تبرز مدى تأثير اختيار الهيكل وتغير البيئة على النتائج.
كما أظهر الباحثون قابلية هذا الإطار للتوسع كأداة آمنة للاختبار في المجالات الحرجة للسلامة.
يمكن الوصول إلى الأكواد والاختبارات عبر الروابط التالية: [رابط GitHub] و [رابط Hugging Face].
ابتكار إطار موحد لتقييم قدرات الوكلاء في نماذج اللغات الضخمة
اكتشاف جديد يسلط الضوء على أهمية تطوير إطار موحد لتقييم قدرات نماذج اللغات الضخمة (LLMs) كعملاء. هذا الإطار يعد خطوة نوعية لفهم الأداء الفعلي لهذه النماذج بعيداً عن تأثيرات البيئات المتغيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
