تشير الأبحاث الحديثة التي تناولت تدريب النماذج الذكية إلى مجموعة من النتائج المثيرة. في دراستنا، نركز على نموذجين وهما Qwen2.5-Coder-3B وDeepSeek-Coder-6.7B، لنستكشف كيف يمكن لعملية التدريب الزائد (Overtraining) أن تؤثر على الأداء العام لهذه النماذج.

في البداية، تعتبر الاختيارات التقليدية التي تعتمد على اختيار النقطة التي تسجل أعلى نسبة نجاح (pass@1) لمعدل الأداء التقديري (GRPO) غير فعّالة في بعض الحالات، خصوصًا عندما يتم ضغط توزيع التنفيذ بسبب التدريب الزائد.

بالنسبة لنموذج Qwen2.5، قمنا بإجراء تجارب عبر خمسة أعماق وثلاثة بذور (seeds)، ووجدنا أن نسبة النجاح (pass@1) تزداد مع زيادة العمق بينما تنخفض النتائج الأخرى، حيث انخفضت نسبة GRPO من 0.806 إلى 0.481 عند زيادة العمق. هذه المعطيات تشير إلى أن العمق يساهم بشكل ملحوظ في نتائج النماذج، ولكن الزيادة المبالغ فيها قد تؤدي إلى نتائج غير متوقعة.

أما بالنسبة لنموذج DeepSeek، فقد لاحظنا أن النسب تبقى عالية مما يشير إلى أن آليات الضغط لا تؤثر بنفس القدر، حيث كان الأداء مستقرًا ونتائج GRPO لم تتعرض للانقلاب.

اعتمدنا أيضًا على تشخيص ثنائي المرحلة يجمع بين مراقبة الطاقات السابقة وقياسات الانتروبيا المبكرة، مما سمح لنا بتحديد النقاط الخطرة والتوقف عن التجارب الفاشلة في وقت مبكر. ومع ذلك، لم تنجح بعض التقنيات البسيطة مثل تقنيات تنظيم KL في إنقاذ نقاط الانهيار في نموذج Qwen، مما يدفعنا للتساؤل حول مدى تعقيد ظاهرة التدريب الزائد وتأثيرها العميق على الأداء.

تستمر دراسة هذا المجال المتقدم، حيث يتطلب فهم كيفية تحسين عملية التدريب وضمان التواصل الجيد في النماذج الذكية مزيدًا من التحليل.