مع تنامي قدرات الوكلاء، تتخبط المعايير الحالية مثل معيار $ au^2$-Bench في مشكلات التشبع. إذ أن إنشاء مهام تقييم جديدة يعد عملية معقدة ومكلفة وتتطلب جهوداً ضخمة. الطريقة التقليدية تعتمد على كتابة السيناريوهات بلغة طبيعية ثم تحويلها إلى تسلسلات أدوات، مما يؤدي إلى تغطية ضيقة فقط لبعض الأنماط المستخدمة. في هذا السياق، تقدم الدراسة الجديدة أسلوباً مبتكراً يُعرف بـ TASTE (توليد المهام من تطور تسلسل الأدوات).
تقوم TASTE بتوليد مهام صعبة ذات تغطية أوسع لاستخدام الأدوات، حيث تستخدم نموذج $n$-gram التكيفي المدرب على إشارات صحة LLM. يتيح هذا النظام الحصول على تسلسلات أدوات صحيحة تغطي مجموعة واسعة من التركيبات. بعد ذلك، يتم اختيار تسلسلات تمثل من بين مجموعة البيانات عبر التجميع، ويتم تحويلها إلى مهام تقييم مكتملة ومن ثم تحسينها من خلال تطور الصعوبة المتكررة.
تمكننا TASTE من بناء معيار $ au^c$-Bench، وهو توسعة صعبة للمعيار السابق $ au^2$-Bench. عند تقييمنا لـ 11 زوجاً من الوكلاء/المستخدمين، لاحظنا أن النماذج التي اقتربت من التشبع في معيار $ au^2$-Bench شهدت انخفاضاً حاداً في الأداء على المهام الجديدة. مثلاً، تراجع أداء Gemini-3-Flash من 0.82 إلى 0.28.
علاوة على زيادة الصعوبة، فإن المهام التي تم إنشاؤها تفوق عدد التركيبات الفريدة للأدوات التي يجب على الوكلاء تنفيذها، مما يزيد من التعقيد. تدل نتائجنا على أن الدرجات العالية في المعايير الحالية غالبًا ما تعكس فقط حالة التشبع وليس القدرة الفعلية على حل المهام. من خلال أتمتة إنشاء معايير صعبة وعالية التغطية، تفتح TASTE الآفاق لتقييم مستدام وقابل للتوسع للوكلاء المستقبليين.
تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE
تسعى ورقة جديدة لتطوير معايير تقييم الوكلاء من خلال طريقة مبتكرة تُسمى TASTE، مما يعزز من تعدد استخدام الأدوات وصعوبة المهام. هذه الطريقة تعد بمثابة نقلة نوعية في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
