في عالم الذكاء الاصطناعي، تعد نماذج اللغة الكبيرة (Large Language Models) محورًا رئيسيًا للدراسات والأبحاث الحديثة. ولكن السؤال الغامض الذي يشغل الكثيرين هو: متى يتعين علينا استخدام التعلم المعزز متعدد الوكلاء (Multi-Agent RL) لتحسين سير عمل هذه النماذج؟

دراسة حديثة نُشرت على arXiv تستكشف هذا السؤال من خلال مقارنة نوعين من التدريب: التدريب المشترك على السياسات (Shared-Policy) والتدريب المنعزل على السياسات (Isolated-Policy). في سياق هذا البحث، تم تقييم الأداء من خلال ثلاث سير عمل رئيسية: Eval-Opt، Voting وOrch-Workers، بالإضافة إلى مجموعة متنوعة من المهام الرياضية والتشفيرية، وبتطبيق نماذج مختلفة الأحجام (0.6B، 1.7B، و4B).

تظهر النتائج أن التعلم المعزز متعدد الوكلاء عادة ما يحسن من الأداء مقارنة بالنماذج الأساسية. ومع ذلك، فإن مدى التحسن يعتمد بشكل مشترك على سير العمل والمهام وحجم النموذج، وليس مجرد مشاركة السياسة. على سبيل المثال، يميل التدريب المنعزل على السياسات إلى تحقيق دقة أعلى، لكنه يمكن أن ينحدر إلى استقرار منخفض بشكل مفاجئ. من ناحية أخرى، لا يلغي التدريب المشترك الفشل، بل يعيد توزيعه في أنماط مختلفة نوعيًا.

تشير النتائج إلى أن ديناميات التدرجات على مستوى الوكلاء تعتمد على هندسة سير العمل وتوجيه السياسات: تحت التدريب المنعزل، تُعزز الوكلاء الذين يتشاركون نفس الدور على نفس الموجهات التدرجات لكل دور، مما يؤدي إلى تدهور الأداء في عمليات Voting وOrch-Workers. بينما في نموذج التدريب المشترك، تتسبب التدرجات غير المتكافئة في استحواذ السياسة المشتركة من قبل الدور السائد، مما يظهر أنماط فشل مختلفة حسب المهمة وسير العمل.

بالتالي، تُظهر خريطة الأداء وآلياتها الأساسية أن مشاركة السياسات توجه ضغط التدريب عبر قنوات مختلفة بدلاً من تقديم استقرار موحد، مما يجعل هذه الاختيارات تصميمًا خاضعًا لتوازنات تعتمد على سير العمل والمهام.