في عالم الذكاء الاصطناعي، يعتبر تحقيق الأداء العالي للنماذج أمرًا محورياً، وتظهر أحدث الأبحاث طريقة مبتكرة لتحقيق ذلك. تمثل الدراسة الحالية خطوة مثيرة لفهم كيفية استغلال الخبرة السابقة من نماذج أصغر في تحسين أداء نماذج أكبر وأكثر تعقيدًا.

المسألة الرئيسية التي تناولتها الدراسة تتمحور حول ما إذا كان بالإمكان استخدام البيانات الناتجة عن نماذج أضعف من أجل تعزيز الأداء العام لنماذج أقوى، وهو ما يعرف بتقنية التعلم المعزز غير المباشر (off-policy).

تشير النتائج التي توصل إليها الباحثون إلى أن إدخال مسودات رياضية خاطئة من نموذج أقل قوة، ولكنه أكثر تخصصًا في نطاق موضوع معين، يعزز باستمرار الأداء مقارنة بالتقنيات التقليدية مثل التمشيط المعزز المباشر (GRPO).

على سبيل المثال، تم استخدام نموذج Mathstral-7B كالمتعلم، ونموذج Qwen2.5-Math-1.5B كمسودة، وتم اختبارها على مجموعة من مسائل الرياضيات المعقدة. وقد أثبتت هذه الاستراتيجية فعاليتها من خلال تحسين نحو 1.62 نقطة مئوية على مجموعة بيانات MATH-500.

تجدر الإشارة إلى أن استخدام مزيج من المسودات الخاطئة أدى إلى نتائج غير مسبوقة، حيث تفوقت النتيجة التي تم الوصول إليها على النماذج السابقة، بما في ذلك نموذج WizardMath الشهير.

هذا البحث يفتح آفاقًا جديدة لهندسة نماذج التعلم العميق، مُشيرًا إلى أن إدخال معلومات غير مطابقة يمكن أن يكون سر النجاح، مما يجعل هذه التقنية واحدة من أبرز الابتكارات في مجال الذكاء الاصطناعي.