في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (LLMs) في صدارة التطورات التكنولوجية، حيث تُستخدم كموارد توفر حلول فعالة. ومع زيادة اعتماد الوكلاء التفاعليين على هذه النماذج في التفاعل مع البيئات الخارجية، أصبح من الضروري أن يتمكن هؤلاء الوكلاء من تقييم أدائهم بشكل دقيق بناءً على الملاحظات والنتائج.

تظهر الأبحاث أن هناك فجوة مستمرة تُعرف بفجوة الانعكاس، حيث يميل وكلاء LLMs إلى سوء تقييم نواتجهم، حتى في الحالات التي يجيبون فيها بشكل صحيح. هذه المشكلة لا تتعلق فقط بدقة الإجابات، ولكن أيضًا بكيفية تلقي الأعطال أو الرسائل من البيئة خارج البرنامج.

لإغلاق هذه الفجوة، تم اقتراح طريقة جديدة تُسمى RefGRPO، والتي تقدم حلاً بسيطًا لكنه فعال. تعتمد هذه الطريقة على تعزيز خوارزميات التعلم المعزز (Reinforcement Learning) من خلال اضافتين رئيسيتين: 1) مكافأة تهيئة مجانية تُحسب من خلال مقارنة تأملات الوكيل مع النتيجة الفعلية، مما لا يحتاج إلى نموذج مكافأة إضافي، أو قاضي LLM، أو تعليقات خارجية. 2) جدول زمني ديناميكي على معامل هذه المكافأة.

عند اختبار هذه الطريقة، تبين أنها تحدث تحسينات ملحوظة في دقة الانعكاس وتقييم المهام، حيث أدت إلى تقليص معدل عدم الثقة من 44.4% إلى 7.7%، وزيادة دقة المهمة من 75.1% إلى 76.5% عبر خمسة معايير.

يؤدي هذا الانعكاس المُهيأ إلى تحول الوكيل ليصبح موثقًا لنفسه بناءً على التغذية الراجعة من البيئة، مما يساعد في تحسين الأداء الذاتي عن طريق استخدام الانعكاسات كمكافآت بدون إشراف على النتيجة، ويعزز من فعالية التنبؤ الانتقائي في أوقات الاختبار.