تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE

Q: ما هو موضوع مقال "تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

مع تنامي قدرات الوكلاء، تتخبط المعايير الحالية مثل معيار $ au^2$-Bench في مشكلات التشبع. إذ أن إنشاء مهام تقييم جديدة يعد عملية معقدة ومكلفة وتتطلب جهوداً ضخمة. الطريقة التقليدية تعتمد على كتابة السيناريوهات بلغة طبيعية ثم تحويلها إلى تسلسلات أدوات، مما يؤدي إلى تغطية ضيقة فقط لبعض الأنماط المستخدمة. في هذا السياق، تقدم الدراسة الجديدة أسلوباً مبتكراً يُعرف بـ TASTE (توليد المهام من تطور تسلسل الأدوات).

تقوم TASTE بتوليد مهام صعبة ذات تغطية أوسع لاستخدام الأدوات، حيث تستخدم نموذج $n$-gram التكيفي المدرب على إشارات صحة LLM. يتيح هذا النظام الحصول على تسلسلات أدوات صحيحة تغطي مجموعة واسعة من التركيبات. بعد ذلك، يتم اختيار تسلسلات تمثل من بين مجموعة البيانات عبر التجميع، ويتم تحويلها إلى مهام تقييم مكتملة ومن ثم تحسينها من خلال تطور الصعوبة المتكررة.

تمكننا TASTE من بناء معيار $ au^c$-Bench، وهو توسعة صعبة للمعيار السابق $ au^2$-Bench. عند تقييمنا لـ 11 زوجاً من الوكلاء/المستخدمين، لاحظنا أن النماذج التي اقتربت من التشبع في معيار $ au^2$-Bench شهدت انخفاضاً حاداً في الأداء على المهام الجديدة. مثلاً، تراجع أداء Gemini-3-Flash من 0.82 إلى 0.28.

علاوة على زيادة الصعوبة، فإن المهام التي تم إنشاؤها تفوق عدد التركيبات الفريدة للأدوات التي يجب على الوكلاء تنفيذها، مما يزيد من التعقيد. تدل نتائجنا على أن الدرجات العالية في المعايير الحالية غالبًا ما تعكس فقط حالة التشبع وليس القدرة الفعلية على حل المهام. من خلال أتمتة إنشاء معايير صعبة وعالية التغطية، تفتح TASTE الآفاق لتقييم مستدام وقابل للتوسع للوكلاء المستقبليين.

تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

كيف أعادت Balyasny Asset Management ابتكار أبحاث الاستثمار من خلال الذكاء الاصطناعي

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي