شهد مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) تطورًا كبيرًا مؤخرًا بفضل استخدام [تقنيات [التعلم](/tag/التعلم) المعزز](/tag/[تقنيات](/tag/تقنيات)-[التعلم](/tag/التعلم)-المعزز) مع المدققين ([Reinforcement Learning](/tag/reinforcement-learning) with Verifiers - [RLVR](/tag/rlvr))، والتي أصبحت حجر الزاوية لتحسين [تفكير](/tag/تفكير) [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)). ولكن، غالبًا ما تعاني هذه التقنيات من مشكلة تعرف بالانهيار الاستكشافي، حيث تتأرجح [النماذج](/tag/النماذج) [نحو](/tag/نحو) مجموعة ضيقة من الأنماط ذات النقاط العالية، مما يحد من قدرتها على [استكشاف](/tag/استكشاف) [حلول جديدة](/tag/[حلول](/tag/حلول)-جديدة).

في جهود لتحسين هذا الوضع، تم تقديم [تقنيات](/tag/تقنيات) مثل [تنظيم](/tag/تنظيم) [الانتروبيا](/tag/الانتروبيا) (Entropy Regularization) أو [مكافأة](/tag/مكافأة) [التنوع](/tag/التنوع) (Diversity Bonus)، لكن هذه الطرق تظل محصورة في طبيعة "الفائز يأخذ كل شيء"، حيث لا تزال العمليات تتنافس لتحقيق مزايا فردية بدلاً من [التعاون](/tag/التعاون) لزيادة [التنوع](/tag/التنوع) العالمي.

لذلك، قدم الباحثون تصورًا جديدًا تحت مسمى Group Cooperative [Policy Optimization](/tag/policy-optimization) (GCPO)، الذي يغير [نموذج](/tag/نموذج) [التدريب](/tag/التدريب) من [المنافسة](/tag/المنافسة) إلى [التعاون](/tag/التعاون) بين الفرق. GCPO يعيد تعريف طريقة [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) من خلال الاعتماد على مساهمة الفرق ككل في [التغطية](/tag/التغطية) الفعالة للحلول بدلاً من التركيز على [دقة](/tag/دقة) الأفراد فقط.

يصف هذا [التغطية](/tag/التغطية) كحجم محدد يتضمن المدخلات ذات الدلالات المدفوعة بالمكافآت، حيث تُحتسب النقاط فقط للمدخلات الصحيحة وغير المكررة. أثناء تقدير المزايا، يقوم GCPO بإعادة توزيع [المكافآت](/tag/المكافآت) الجماعية على كل عملية بناءً على مساهمتها المتوسطة في الفريق، مما يعزز [مسارات التفكير](/tag/مسارات-[التفكير](/tag/التفكير)) الصحيحة غير المكررة.

تظهر [التجارب](/tag/التجارب) [عبر](/tag/عبر) [معايير](/tag/معايير) [التفكير](/tag/التفكير) المختلفة أن GCPO يزيد بشكل ملحوظ من [دقة](/tag/دقة) [التفكير](/tag/التفكير) وتنوع الحلول مقارنة بالنهج التقليدية.

هل تعتقد أن [التعاون](/tag/التعاون) سيكون هو [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)؟ دعنا نعرف رأيك في [التعليقات](/tag/التعليقات)!