شهد مجال الذكاء الاصطناعي تطورًا كبيرًا مؤخرًا بفضل استخدام تقنيات التعلم المعزز مع المدققين (Reinforcement Learning with Verifiers - RLVR)، والتي أصبحت حجر الزاوية لتحسين تفكير النماذج اللغوية (Large Language Models - LLMs). ولكن، غالبًا ما تعاني هذه التقنيات من مشكلة تعرف بالانهيار الاستكشافي، حيث تتأرجح النماذج نحو مجموعة ضيقة من الأنماط ذات النقاط العالية، مما يحد من قدرتها على استكشاف حلول جديدة.
في جهود لتحسين هذا الوضع، تم تقديم تقنيات مثل تنظيم الانتروبيا (Entropy Regularization) أو مكافأة التنوع (Diversity Bonus)، لكن هذه الطرق تظل محصورة في طبيعة "الفائز يأخذ كل شيء"، حيث لا تزال العمليات تتنافس لتحقيق مزايا فردية بدلاً من التعاون لزيادة التنوع العالمي.
لذلك، قدم الباحثون تصورًا جديدًا تحت مسمى Group Cooperative Policy Optimization (GCPO)، الذي يغير نموذج التدريب من المنافسة إلى التعاون بين الفرق. GCPO يعيد تعريف طريقة تقييم الأداء من خلال الاعتماد على مساهمة الفرق ككل في التغطية الفعالة للحلول بدلاً من التركيز على دقة الأفراد فقط.
يصف هذا التغطية كحجم محدد يتضمن المدخلات ذات الدلالات المدفوعة بالمكافآت، حيث تُحتسب النقاط فقط للمدخلات الصحيحة وغير المكررة. أثناء تقدير المزايا، يقوم GCPO بإعادة توزيع المكافآت الجماعية على كل عملية بناءً على مساهمتها المتوسطة في الفريق، مما يعزز مسارات التفكير الصحيحة غير المكررة.
تظهر التجارب عبر معايير التفكير المختلفة أن GCPO يزيد بشكل ملحوظ من دقة التفكير وتنوع الحلول مقارنة بالنهج التقليدية.
هل تعتقد أن التعاون سيكون هو مستقبل الذكاء الاصطناعي؟ دعنا نعرف رأيك في التعليقات!
ثورة في الذكاء الاصطناعي: كيف تعزز تقنيات التعاون في تحسين تفكير النماذج اللغوية المتنوعة؟
تقدم الدراسة الجديدة نهجًا مبتكرًا في تحسين تفكير النماذج اللغوية، يتمحور حول التعاون بين الفرق بدلاً من المنافسة الفردية. يعتبر هذا النموذج خطوة متقدمة نحو تحسين دقة الحلول وثراء تنوعها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
