في عالم الذكاء الاصطناعي، حيث تلعب وكالات نماذج اللغات الضخمة (Large Language Models) دوراً محورياً، كان التركيز حتى الآن على السيناريوهات المثالية المعروفة باسم "المسارات السعيدة". ومع ذلك، تجاهلت معظم الأبحاث حتى الآن المشاكل الناتجة عن فشل هذه الأدوات في العمل في ظروف حقيقية. هنا يأتي دور معيار ToolMaze الجديد، الذي يهدف إلى تقييم قدرة الوكالات على الاكتشاف الديناميكي لمسارات جديدة والتعافي من الأخطاء.

تم تصميم ToolMaze بنمط ثنائي الأبعاد، حيث يدمج تعقيداً طبوغرافياً يعتمد على مخطط DAG وفئة تتكون من أربعة أنواع من الاضطرابات (الاضطرابات الصريحة والضمنية، والعابرة والدائمة). من خلال هذا التصميم المتنوع، تتمكن الأبحاث من فصل عملية إعادة التخطيط المنظومية عن التجارب العمياء، والتي قد تؤدي إلى نتائج غير مثمرة.

أظهرت التقييمات أن الاضطرابات تؤدي إلى تدهور الأداء في جميع النماذج تقريباً، حيث كانت الانخفاضات الأكثر حدة تحدث تحت تأثير الإخفاقات الدلالية الضمنية. في هذه السيناريوهات، انخفض معدل استعادة الاضطرابات (Perturbation Recovery Rate - PRR) بنسبة تقارب 37٪، مما يحذر من خطورة الثقة المفرطة في المخرجات المفسدة. بالإضافة إلى ذلك، يعاني الوكلاء من مشكلة التعثر في حلقة تجارب غير مثمرة بسبب تعقيد الهياكل.

الأكثر إثارة للاهتمام، هو أن قدرة الوكلاء على التحمل أمام الأخطاء تتحسن مع زيادة حجم النموذج، لكنها تتقدم بمعدل أبطأ بـ 3.66 مرة مقارنةً بالتنفيذ الأساسي للمهام. هذه النتائج تبرز إعادة التخطيط الديناميكي كعنق زجاجة لم يتم معالجته ببساطة من خلال زيادة حجم النموذج أو طرق التحفيز.

للاطلاع على المزيد من البيانات والشيفرة البرمجية، يمكنكم زيارة: ToolMaze GitHub.