في عالم تطوير البرمجيات، يمثل التفاعل المتكرر مع وكلاء البرمجة تحدياً كبيراً يتطلب مستوى عالٍ من القدرة على الاستجابة للتغييرات. وفي هذا السياق، تم تقديم **StaminaBench** كأداة تقييم جديدة، تهدف إلى قياس قدرة هؤلاء الوكلاء على التعامل مع عدد كبير من التفاعلات المتسلسلة دون التوقف أو الفشل.
تتجاوز **StaminaBench** المقاييس التقليدية التي تركز على نسبة المهام المنجزة، حيث تم تصميمها لتعكس طبيعة البرمجة الواقعية. يشمل المعيار جلسات برمجية تمتد لعشرات أو حتى مئات التفاعلات، حيث يقوم الوكلاء بتنفيذ سيرفر **REST API** وتعديله استجابةً لطلبات تغيير متكررة.
سواء من خلال إجراء اختبارات بدون مساعدات نماذج لغات ضخمة (Large Language Models) أو من خلال استخدام نماذج مستقلة، تتيح **StaminaBench** تقييم الأداء في بيئات مغلقة تعزز موثوقية النتائج. اختبرنا ستة تجارب لوكلاء متباينين مع سبعة نماذج مفتوحة المصدر على مدار 20 سيناريو مختلف، كل منها يحتوي على 100 جولة تفاعلية.
أظهرت النتائج أن جميع النماذج المستخدمة تفشل في الغالب خلال 5-6 جولات فقط، مما يؤكد الحاجة إلى اختبارات دقيقة لتجنب الأخطاء. ومع ذلك، كانت هناك مؤشرات مشجعة، حيث أظهرت الوكلاء الذين تم تزويدهم بالتعليقات فرصة لتحسين عدد الجولات الناجحة بمعدل يصل إلى 12 ضعفًا. والجدير بالذكر أن استخدام أجهزة قوية يعد أساساً لتوفير أداء قوي، حيث يظهر الفجوة بين أفضل وأسوأ أداء في الوكلاء القويين.
بفضل إطلاق هذه الأداة والتحديات المولدة ذاتياً، تأمل الأبحاث الجديدة في اكتشاف سلوك وكلاء البرمجة في الجلسات المتعددة لتحسين الأداء وسد الفجوات الحالية. هل أنت مستعد لاستكشاف عالم البرمجة عالية الكفاءة؟
StaminaBench: اختبار القدرة التحملية لوكلاء البرمجة عبر 100 جولة تفاعلية
تم إطلاق StaminaBench، معيار جديد يقيم قدرة وكلاء البرمجة على التعامل مع التفاعلات المتكررة. النتائج تشير إلى أن النماذج الحالية تواجه تحديات كبيرة في الحفاظ على الجودة خلال جلسات برمجية طويلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
