في عالم الذكاء الاصطناعي، يأتي مفهوم 'الوكيل المدعوم' (Reinforced Agent) كخطوة جريئة نحو تقديم تقييمات أكثر فعالية أثناء تنفيذ الوكلاء. عادةً، يتم تقييم الوكلاء القائمين على الأدوات من حيث اختيار الأداة، دقة المعلمات، والقدرة على التعرف على السياق، ولكن هذه التقييمات غالبًا ما تكون متأخرة، مما يجعل من الصعب تصحيح الأخطاء في الوقت الفعلي.

التحديات الحالية تتطلب حلاً مبتكرًا، وهنا تظهر فكرة تنفيذ تقييم ديناميكي خلال عملية التنفيذ. تقدم هذه التكنولوجيا الجديدة وكيل مراجعة متخصص يقوم بتقييم المكالمات المؤقتة للأدوات قبل تنفيذها، مما يُحدث تحولًا من تصحيح الأخطاء السابق إلى تقييم استباقي للحد من الأخطاء.

تعتمد هذه المعمارية على فصل واضح بين الوكيل الأساسي المنفذ ووكيل المراجعة الثانوي، مما يتيح تحسين الأداء بشكل أكثر كفاءة. ومع ذلك، كأي نظام يعتمد على الوكلاء المتعددين، قد يقدم الوكيل المراجعة أخطاءً جديدة خلال تصحيحه لأخرى، وهو ما لم يتم قياسه بشكل منهجي من قبل.

لقد تم طرح مقاييس جديدة تُعرف باسم مقاييس 'الفائدة والأذى' (Helpfulness-Harmfulness metrics)، حيث تُقيّم الفائدة نسبة الأخطاء التي يصححها التعليق إلى نسبة الردود الصحيحة التي يهدمها. من خلال تقييم هذا التوازن، يمكن تصميم وكيل المراجعة بشكل أفضل، والتأكد من أنه يوفر قيمة إيجابية صافية.

عند تقييم هذه التقنية على عدة سيناريوهات، حققت نتائج لافتة؛ حيث تم تحسين معدل اكتشاف عدم الصلة بمعدل 5.5% في المهام ذات الدور الواحد، و7.1% في المهام متعددة الأدوار.

تظهر نتائجنا أن اختيار نموذج المراجعة يلعب دورًا حاسمًا: فقد حقق نموذج o3-mini نسبة فائدة إلى مخاطر تبلغ 3:1 مقارنة بـ 2.1:1 لنموذج GPT-4o. بالإضافة إلى ذلك، تقديم تحسينات تلقائية عبر GEPA ساهم في زيادة بنحو 1.5-2.8%.

إجمالًا، توضح هذه النتائج المزايا الجوهرية لفصل التنفيذ والمراجعة، حيث يمكن تحسين أداء وكيل المراجعة بنهج مدروس ودون الحاجة لإعادة تدريب الوكيل الأساسي.

ما رأيكم في هذه التطورات المثيرة؟ شاركونا في التعليقات!