في ظل المنافسة المتزايدة في عالم الذكاء الاصطناعي، يُعتبر تدريب النماذج الرياضية على نطاق واسع إحدى السبل الأساسية لتحقيق التفوق. ومن بين الطرق الحديثة التي ظهرت في هذا المجال هي «تحسين السياسات النسبية الجماعية» (Group Relative Policy Optimization - GRPO)، والتي أصبحت حجر الزاوية لتدريب نماذج التفكير الرياضي. ومع ذلك، تعاني هذه الطريقة من كونها تتطلب تكاليف حسابية مرتفعة بسبب اعتمادها على إكمالات متعددة لكل تنبيه.
في هذا السياق، قدم الباحثون نموذج MMR-GRPO الذي يدمج مفهوم «الحد الأقصى للتنوع الهامشي» (Maximal Marginal Relevance) لإعادة وزن المكافآت بناءً على تنوع الحلول المقدمة. تكمن الفكرة الرئيسية في أن الإكمالات المتشابهة تعطي إشارة تعلم محدودة؛ لذلك، فإن التركيز على الحلول المتنوعة يمكن أن يعزز من فعالية التحديثات ويسرع من عملية التقارب.
أظهرت التقييمات الشاملة التي أجريت على ثلاثة أحجام من النماذج (1.5 مليار، 7 مليار، و8 مليار) وثلاثة متغيرات من GRPO وخمسة معايير في التفكير الرياضي أن MMR-GRPO يقدم أداءً متقاربًا مع احتياج أقل بنحو 47.9% في خطوات التدريب و70.2% في الوقت الإجمالي اللازم. وهذه المكاسب تتسم بالاستمرارية عبر جميع النماذج والأساليب والمعايير المستخدمة.
يمكنكم الاطلاع على الشيفرة المصدرية لهذا النموذج المبتكر على GitHub.
ما رأيكم في هذه التحسينات التي تقود عالم الذكاء الاصطناعي نحو الأمام؟ شاركونا آرائكم في التعليقات!
أسرع تدريب نماذج الذكاء الاصطناعي مع MMR-GRPO: سر المكافآت المتنوعة!
تقدم MMR-GRPO نهجًا مبتكرًا لتسريع تدريب نماذج الذكاء الاصطناعي من خلال إعادة وزن المكافآت استنادًا إلى تنوع الحلول. هذا التطور يعد بالكثير من الفوائد في تقليل الوقت اللازم للتدريب وبناء نماذج أكثر كفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
