في عالم الذكاء الاصطناعي المتسارع، تبحث الفرق البحثية دائماً عن طرق جديدة لتعزيز كفاءة وفعالية النماذج. وفي هذا السياق، يكشف البحث الجديد عن بُعد جديد يعزز تنوع توزيع السياسات (Policy-Level Diversity) في تقنيات تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization - GRPO) من خلال الاعتماد على نماذج أصغر.

عادةً ما يتم زيادة التنوع باستخدام استراتيجيات تعتمد على إضافة عشوائية على مستوى الرموز (Token-Level Randomness)، وهو ما قد يؤدي إلى تشويش غير مرغوب فيه في النتائج. لكن، يُظهر التحليل الذي تم إجراؤه أن النماذج الأصغر، بين عائلة النماذج نفسها، تُظهر تنوعاً أكبر في السياسات، ما يعني أداء أفضل مع زيادة عدد العينات.

تتبنى الدراسة الإطار الجديد المسمي S2L-PO (Small-to-Large Policy Optimization) والذي يعتمد على استخدام نماذج صغيرة كاستكشافات طبيعية لتدريب النماذج الأكبر. ويعمل هذا النظام على تحقيق توازن بين الاستكشاف واستغلال الفرص، من خلال تصميم استراتيجية تطبيعية تدريجية تُتيح الانتقال من عمليات النماذج الصغيرة إلى العينات الذاتية للنموذج الكبير، مما يساعد في تجنب الانخفاضات في الأداء أثناء التدريب.

النتائج مبشرة، حيث يؤدي استخدام الإطار الجديد S2L-PO إلى تحسين دقة النماذج على معايير التفكير الرياضي (Mathematical Reasoning Benchmarks) بنسبة تصل إلى 8.8%، مع تقليل المتطلبات الحسابية. هذا يقدم رؤية مثيرة لمستقبل الذكاء الاصطناعي واستخدامه في مجالات متعددة.