في عالم الذكاء الاصطناعي، أظهرت الوكلاء المدعومون بالنماذج اللغوية الضخمة (Large Language Models) قدرات مذهلة في حل المهام المعقدة عبر التفكير المتعدد الخطوات واستخدام الأدوات. ومع ذلك، تركز بروتوكولات التقييم الحالية بشكل أساسي على نجاح المهمة، متجاهلة جانبًا حاسمًا من سلوك الوكيل: كفاءة التنفيذ. في الواقع، تحتوي مسارات الوكالات غالبًا على خطوات زائدة تستهلك موارد كبيرة وتساهم بشكل ضئيل في إتمام المهمة.

لإلقاء الضوء على هذه القضية، اقترحنا وصغنا مجال بحث جديد: اكتشاف الخطوات الزائدة لمسارات الوكلاء. دعمًا لهذه المبادرة، قدمنا Benchmark جديد يحمل اسم extbf{RedundancyBench}، الذي يحتوي على مهام متنوعة مع مسارات موضحة بعناية، حيث تم تصنيف كل خطوة وفقًا لمساهمتها في إتمام المهمة. باستخدام RedundancyBench، قمنا بتطوير وتقييم ثلاث طرق تمثيلية للإجابة عن سؤال ما إذا كانت الخطوة ضمن المسار مكررة أم ضرورية.

تظهر نتائجنا أن أفضل طريقة تحقق نسبة 24.88% فقط في اكتشاف الخطوات الزائدة، بينما أدت بعض الطرق إلى نتائج أسوأ من التخمين العشوائي. تؤكد هذه النتائج على تعقيد المهمة والحاجة إلى مزيد من البحث في هذا المجال المثير.