ما هو موضوع مقال "ابتكار إطار موحد لتقييم قدرات الوكلاء في نماذج اللغات الضخمة"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "ابتكار إطار موحد لتقييم قدرات الوكلاء في نماذج اللغات الضخمة" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

ابتكار إطار موحد لتقييم قدرات الوكلاء في نماذج اللغات الضخمة

مع تزايد استخدام نماذج اللغات الضخمة (Large Language Models) كعملاء ذكيين في مختلف المجالات، أصبح من الضروري إجراء تقييم موثوق لقدراتها. لكن في كثير من الأحيان، تكون نتائج الاختبارات مشوشة بسبب كيفية تنفيذ النماذج وطرق القياس المستخدمة، مما يجعل المقارنات بين النتائج معقدة.

لذا، تم تقديم إطار موحد لتقييم قدرات الوكلاء في هذه النماذج. يعتمد هذا الإطار على نظام تكوين موحد يدمج مقاييس مختلفة ضمن صيغة تعليمات وأدوات وبيئات قياسية. إذ يتم تنفيذ الوكلاء من خلال هيكل ثابت على نمط ReAct، مما يتيح لهم العمل ضمن بيئة محكمة، إلى جانب توفير إعدادات غير متصلة لتعويض تقلبات البيئات الحية.

من خلال هذا الإطار، تمتد جهود الباحثين لتوحيد منهجيات التقييم مع مراعاة معايير نجاح المهام الأصلية لكل اختبار. بالإضافة إلى ذلك، تم تقديم مقاييس موحدة لاستهلاك الموارد وتصنيف لأخطاء اتخاذ القرار والتنفيذ.

تم تطبيق هذا الإطار على 7 اختبارات شهيرة تغطي 24 مجالاً، تتنوع بين سيناريوهات الوكيل الواحد والوكيل المتعدد، وكذلك السيناريوهات الحرجة للسلامة. وقد أسفرت التحليلات التي أُجريت على 400000 تجربة و5 مليارات توكن على 15 نموذجاً، عن نتائج مثيرة تبرز مدى تأثير اختيار الهيكل وتغير البيئة على النتائج.

كما أظهر الباحثون قابلية هذا الإطار للتوسع كأداة آمنة للاختبار في المجالات الحرجة للسلامة.

يمكن الوصول إلى الأكواد والاختبارات عبر الروابط التالية: [رابط GitHub] و [رابط Hugging Face].

ابتكار إطار موحد لتقييم قدرات الوكلاء في نماذج اللغات الضخمة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

جوجل تضيف مهارات الذكاء الاصطناعي إلى كروم: احتفظ بتجاربك المفضلة بذكاء!

ثورة جديدة في تجربة المستخدم: تطبيق جيميناي الأصلي لمستخدمي الماك!

قفزة مذهلة: شركة Allbirds تتحول نحو الذكاء الاصطناعي بعد بيع أعمالها في صناعة الأحذية!