في عالم اليوم المتقدم تقنيًا، تعتمد الوكلاء المعتمدين على نماذج اللغة الضخمة (Large Language Models) بشكل متزايد على أدوات خارجية لتحقيق النجاح في مهامهم. ولكن، كيف يمكننا تقييم قدرتهم على التفكير المستند إلى هذه الأدوات في سياقات غير معتادة؟ هنا يأتي دور "AgentEscapeBench"، والذي يمثل معيارًا جديدًا في هذا المجال.
يهدف AgentEscapeBench، المستوحى من أسلوب غرف الهروب، إلى اختبار ما إذا كانت الوكلاء يمكنهم استنتاج وتنفيذ ومراجعة إجراءات استخدام الأدوات الجديدة تحت قيود تعتمد على السياقات البعيدة. كل مهمة في هذا المعيار تحدد رسمًا بيانيًا معتمدًا على أدوات وعناصر معينة، مما يتطلب من الوكلاء استعانة بوظائف خارجية حقيقية، وتتبع الحالة المخفية التي تُكشف تدريجيًا، ونقل النتائج الوسيطة، وتقديم إجابة نهائية قابلة للتحقق.
يتضمن AgentEscapeBench 270 حالة عبر خمس مستويات صعوبة، ويدعم التقييم التلقائي بالكامل. أظهرت التجارب التي أُجريت مع 16 وكيلًا معتمدًا على نماذج اللغة وموظفين بشر، أداءً متدنيًا بشكل حاد مع زيادة عمق الاعتماد: فقد انخفضت نسبة نجاح البشر من 98.3% عند المستوى 5 إلى 80.0% عند المستوى 25، بينما انخفضت أفضل النماذج من 90.0% إلى 60.0%.
تشير تحليلات المسارات إلى أن الأسباب وراء فشل النماذج تكمن بشكل أساسي في انهيار تتبع الحالة بعيدة المدى، والالتزام بالأدلة، وانتقال النتائج الوسيطة. هذه النتائج تبرز أن الوكلاء الحاليين غالبًا ما يتمكنون من التعامل مع الاستخدام المحلي للأدوات، ولكنهم ما زالوا يعانون من صعوبات في مواجهة الاعتماد السياقي العميق.
نأمل أن يكون AgentEscapeBench بمثابة منصة تشخيصية لقياس قدرات الوكلاء الحالية والإرشاد نحو تحسين التدريب المستقبلي لتحقيق تفكير أكثر قوة وملاءمة.
اختبار أداء الوكلاء: AgentEscapeBench يكشف تحديات التفكير المستند إلى الأدوات في نماذج اللغة
يستعرض بحث AgentEscapeBench اختبارات جديدة تتعلق بقدرة الوكلاء المعتمدين على نماذج اللغة في التعامل مع أدوات جديدة تحت قيود اعتماد بعيدة. النتائج تشير إلى أن الوكلاء يواجهون تحديات في تتبع السياقات العميقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
