في عالم الذكاء الاصطناعي الذي يتطور بسرعة، نجد أن الطلبات الحقيقية من المستخدمين لوكلاء نماذج اللغات الضخمة (Large Language Models) غالبًا ما تكون غير محددة بدقة. لذلك، يصبح من الضروري للأجهزة الذكية التفاعل واكتساب المعلومات الناقصة لضمان اتخاذ قرارات صحيحة في المستقبل.

تستند الأساليب التقليدية، مثل تلك المعتمدة على تعزيز التعلم القائم على مسارات متعددة (multi-turn GRPO)، إلى حساب المكافآت على مستوى المسار، مما يؤدي غالبًا إلى مشاكل في تخصيص الفوائد وإشارات غير كافية ضمن مجموعات الانطلاق. هنا يأتي دور تقنية InfoPO (Information-Driven Policy Optimization) المبتكرة، التي تستعرض التفاعل متعدد الأدوار كعملية نشطة لتقليل عدم اليقين.

تقوم InfoPO بحساب مكافأة تعتمد على اكتساب المعلومات، مشجعةً الأدوار التي تُحدث فرقًا قويًا في توزيع الإجراءات اللاحقة للوكلاء، مقارنةً بسيناريوهات مضبوطة ثانية. ولا تتوقف الفائدة عند هذا الحد، بل تجمع هذه الإشارة مع نتائج المهام عبر دمج مرن يتوافق مع أهداف المهمة، مما يضمن تعزيز كل من أهمية المعلومات والهدف القائم على المهام.

عبر مجموعة من المهام المتنوعة، مثل توضيح النية (intent clarification) والبرمجة التعاونية (collaborative coding) واتخاذ القرارات المعززة بالأدوات (tool-augmented decision making)، أثبتت InfoPO تفوقها المستمر مقارنةً بأساليب التحفيز التقليدية وتعليم التعزيز متعدد الأدوار. كما أنها تتمتع بالقدرة على التكيف مع تغييرات محاكاة المستخدمين وتعميم أفعالها على المهام التفاعلية مع البيئة.

باختصار، تقدم InfoPO آلية منهجية وقابلة للتوسع لتحسين التعاون بين الوكلاء والمستخدمين، مما يجعلها إطارًا مثيرًا للاهتمام للمستقبل. للمزيد من المعلومات والتفاصيل، يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: [https://github.com/kfq20/InfoPO].