في عالم الذكاء الاصطناعي المتسارع، تبحث الفرق البحثية دائماً عن طرق جديدة لتعزيز كفاءة وفعالية النماذج. وفي هذا السياق، يكشف البحث الجديد عن بُعد جديد يعزز تنوع توزيع السياسات (Policy-Level Diversity) في تقنيات تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization - GRPO) من خلال الاعتماد على نماذج أصغر.
عادةً ما يتم زيادة التنوع باستخدام استراتيجيات تعتمد على إضافة عشوائية على مستوى الرموز (Token-Level Randomness)، وهو ما قد يؤدي إلى تشويش غير مرغوب فيه في النتائج. لكن، يُظهر التحليل الذي تم إجراؤه أن النماذج الأصغر، بين عائلة النماذج نفسها، تُظهر تنوعاً أكبر في السياسات، ما يعني أداء أفضل مع زيادة عدد العينات.
تتبنى الدراسة الإطار الجديد المسمي S2L-PO (Small-to-Large Policy Optimization) والذي يعتمد على استخدام نماذج صغيرة كاستكشافات طبيعية لتدريب النماذج الأكبر. ويعمل هذا النظام على تحقيق توازن بين الاستكشاف واستغلال الفرص، من خلال تصميم استراتيجية تطبيعية تدريجية تُتيح الانتقال من عمليات النماذج الصغيرة إلى العينات الذاتية للنموذج الكبير، مما يساعد في تجنب الانخفاضات في الأداء أثناء التدريب.
النتائج مبشرة، حيث يؤدي استخدام الإطار الجديد S2L-PO إلى تحسين دقة النماذج على معايير التفكير الرياضي (Mathematical Reasoning Benchmarks) بنسبة تصل إلى 8.8%، مع تقليل المتطلبات الحسابية. هذا يقدم رؤية مثيرة لمستقبل الذكاء الاصطناعي واستخدامه في مجالات متعددة.
استكشاف آفاق جديدة للذكاء الاصطناعي: نماذج أصغر تُعزز من تنوع السياسات في GRPO!
تظهر الأبحاث الحديثة أن النماذج الأصغر تتفوق في تحقيق تنوع سياسات أكبر في نمذجة التعلم. تقدم الإطار الجديد S2L-PO كحل مبتكر لتسريع العمليات وتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
