في عالم الذكاء الاصطناعي، تطورت نماذج اللغات الضخمة (Large Language Models) إلى وكالات قادرة على استخدام الأدوات، لكنها تواجه تحديات كبيرة في التفاعلات طويلة الأمد. حيث تعتبر الأخطاء في استخدام الأدوات أكثر تعقيدًا من الأخطاء الرياضية التي يمكن تصحيحها بسهولة عن طريق التراجع، مما يجعل التحقق من الجودة على مستوى الخطوات من الأمور الهامة.

ومع معظم المعايير الحالية التي تركز على المجالات الرياضية المغلقة، كان هناك نقص في طرق تقييم القدرة على تنفيذ الأدوات في بيئات ديناميكية ومتنوعة. لذلك، تم تقديم معيار AgentProcessBench كأول معيار يهدف لتقييم فعالية الخطوات في مسارات واقعية معززة بالأدوات.

يتألف هذا المعيار من 1,000 مسار متنوع و8,509 توصيفات خطوة مصنفة من قبل البشر، مع اتفاقية بلغت 89.1% بين المعلقين. ويتضمن مخطط تسمية ثلاثي لالتقاط الاستكشاف وقاعدة لنشر الأخطاء للحد من الغموض في التسمية.

أعلنت التجارب الموسعة نتائج مثيرة، أبرزها:
1. النماذج ذات السياسات الأضعف تظهر نسبًا مبالغ فيها من الخطوات الصحيحة بسبب إنهاء مبكر.
2. التمييز بين الإجراءات المحايدة والخاطئة لا يزال يمثل تحديًا كبيرًا للنماذج الحالية.
3. إن الإشارات المستمدة من العمليات توفر قيمة تكميلية لمراقبة النتائج، مما يعزز بشكل كبير إمكانية التوسع عند الاختبار.

نأمل أن يسهم AgentProcessBench في تعزيز الأبحاث المستقبلية في نماذج المكافآت ويمهد الطريق نحو تطوير وكلاء عموميين. يمكنكم الاطلاع على الشيفرة والبيانات من خلال هذا الرابط.

ما رأيكم في هذا التطور الجديد؟ شاركونا في التعليقات!