تطورت نماذج اللغة الكبيرة (Large Language Models) بشكل ملحوظ خلال السنوات الأخيرة، حيث أصبحت قادرة على معالجة مهام تفكير معقدة من خلال تقسيم الأدوار بين عدة وكلاء. لكن التحدي الرئيسي الذي يواجه هذه الأنظمة في تعلمها هو توزيع المكافآت، حيث أن المكافآت المشتركة قد تُخفي مساهمات الأفراد وتسمح ببعض الوكلاء بالاستفادة دون التحمل الكافي للمسؤولية.
لتجاوز هذا التحدي، تم تقديم مفهوم "تحسين سياسة الائتمان التعاونية" (Collaborative Credit Policy Optimization - CCPO)، والذي يُعد طبقة مستقلة عن المحسنات، تعمل على تحويل نتائج الفرق إلى إشارات تعلم محددة لكل وكيل.
يوفر CCPO آليتين تكميليتين؛ حيث يقوم المخصص المضاد للحقائق (Counterfactual credit) بتقدير مساهمة كل وكيل من خلال مقارنة النتيجة النهائية للفريق مع نتيجة افتراضية إذا تم إزالة ذلك الوكيل. من جهة أخرى، يوفر تخصيص التقييم الذاتي المُعتمد على ممتحن آلية استكشافية تستخدم تقييمات ذاتية وزملاء لتوزيع الائتمان مع الحفاظ على نتيجة الممتحن الخارجي كعنصر مسيطر.
تتيح المكافآت المحددة حسب الدور إمكانية الاستفادة منها في تحديثات على نمط GRPO أو من قبل محسنات أخرى مثل GSPO وREINFORCE++. لقد تم اختبار CCPO في بيئة تفكير متتابعة وجرى تقييمها على مقاييس رياضية، وأظهرت النتائج أن توزيع الائتمان الواضح غالبًا ما يحسن من أداء الوكلاء الثنائيين، خاصةً على مجموعة MATH500 وعدة إعدادات خارج التوزيع.
للاستزادة، يمكن العثور على الشيفرة المصدرية لهذا البحث على GitHub عبر الرابط: GitHub CCPO.
فما رأيكم في هذه التطورات المذهلة في تحسين التعاون بين الوكلاء؟ شاركونا آراءكم في التعليقات!
تحسين سياسات الائتمان للتعاون بين الوكلاء: خطوة نحو العقول الجماعية المتقدمة!
طرحت دراسة جديدة أسلوب تحسين سياسات الائتمان بالتعاون بين الوكلاء، وهو ما يعزز من فعالية نماذج اللغات الكبيرة في مهام التفكير المعقد. يوفر هذا الأسلوب الجديد آليات فعالة لتوزيع المكافآت وتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
