شهد مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) تطورًا كبيرًا مؤخرًا بفضل استخدام [تقنيات [التعلم](/tag/التعلم) المعزز](/tag/[تقنيات](/tag/تقنيات)-[التعلم](/tag/التعلم)-المعزز) مع المدققين ([Reinforcement Learning](/tag/reinforcement-learning) with Verifiers - [RLVR](/tag/rlvr))، والتي أصبحت حجر الزاوية لتحسين [تفكير](/tag/تفكير) [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)). ولكن، غالبًا ما تعاني هذه التقنيات من مشكلة تعرف بالانهيار الاستكشافي، حيث تتأرجح [النماذج](/tag/النماذج) [نحو](/tag/نحو) مجموعة ضيقة من الأنماط ذات النقاط العالية، مما يحد من قدرتها على [استكشاف](/tag/استكشاف) [حلول جديدة](/tag/[حلول](/tag/حلول)-جديدة).
في جهود لتحسين هذا الوضع، تم تقديم [تقنيات](/tag/تقنيات) مثل [تنظيم](/tag/تنظيم) [الانتروبيا](/tag/الانتروبيا) (Entropy Regularization) أو [مكافأة](/tag/مكافأة) [التنوع](/tag/التنوع) (Diversity Bonus)، لكن هذه الطرق تظل محصورة في طبيعة "الفائز يأخذ كل شيء"، حيث لا تزال العمليات تتنافس لتحقيق مزايا فردية بدلاً من [التعاون](/tag/التعاون) لزيادة [التنوع](/tag/التنوع) العالمي.
لذلك، قدم الباحثون تصورًا جديدًا تحت مسمى Group Cooperative [Policy Optimization](/tag/policy-optimization) (GCPO)، الذي يغير [نموذج](/tag/نموذج) [التدريب](/tag/التدريب) من [المنافسة](/tag/المنافسة) إلى [التعاون](/tag/التعاون) بين الفرق. GCPO يعيد تعريف طريقة [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) من خلال الاعتماد على مساهمة الفرق ككل في [التغطية](/tag/التغطية) الفعالة للحلول بدلاً من التركيز على [دقة](/tag/دقة) الأفراد فقط.
يصف هذا [التغطية](/tag/التغطية) كحجم محدد يتضمن المدخلات ذات الدلالات المدفوعة بالمكافآت، حيث تُحتسب النقاط فقط للمدخلات الصحيحة وغير المكررة. أثناء تقدير المزايا، يقوم GCPO بإعادة توزيع [المكافآت](/tag/المكافآت) الجماعية على كل عملية بناءً على مساهمتها المتوسطة في الفريق، مما يعزز [مسارات التفكير](/tag/مسارات-[التفكير](/tag/التفكير)) الصحيحة غير المكررة.
تظهر [التجارب](/tag/التجارب) [عبر](/tag/عبر) [معايير](/tag/معايير) [التفكير](/tag/التفكير) المختلفة أن GCPO يزيد بشكل ملحوظ من [دقة](/tag/دقة) [التفكير](/tag/التفكير) وتنوع الحلول مقارنة بالنهج التقليدية.
هل تعتقد أن [التعاون](/tag/التعاون) سيكون هو [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)؟ دعنا نعرف رأيك في [التعليقات](/tag/التعليقات)!
ثورة في الذكاء الاصطناعي: كيف تعزز تقنيات التعاون في تحسين تفكير النماذج اللغوية المتنوعة؟
تقدم الدراسة الجديدة نهجًا مبتكرًا في تحسين تفكير النماذج اللغوية، يتمحور حول التعاون بين الفرق بدلاً من المنافسة الفردية. يعتبر هذا النموذج خطوة متقدمة نحو تحسين دقة الحلول وثراء تنوعها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
