في عالم الذكاء الاصطناعي، تتطور تقنيات التعلم العميق بوتيرة سريعة، ومن بين هذه التطورات تأتي فكرة تقليص التسلسل. هذا البحث يدور حول كيفية تقليل تكاليف التدريب على النماذج الكبيرة للتفكير (Large Reasoning Models) عن طريق تحسين آلية استخراج المعرفة.

عادة ما تتطلب نماذج التفكير الكبيرة كميات كبيرة من بيانات التفكير، مما يجعل عملية تعليم النماذج الأصغر (Student Models) عملية مكلفة حسابياً، خاصة عند التعامل مع تسلسلات طويلة تحتوي على استفسارات (Prompts) وأفكار مترابطة (Chain-of-Thought) وإجابات (Answers).

وركز الباحثون في دراستهم على كيفية توزيع الإشراف عبر هذه الأقسام المختلفة، ليكتشفوا أن تخصيص المعرفة بصورة انتقائية على رموز الأفكار المترابطة (CoT Tokens) يمكن أن يكون له تأثير إيجابي على أداء النموذج الأصغر، طالما أن المعلومات المتعلقة بالاستفسار والإجابة أقرب إلى تلك الرموز.

واستناداً إلى هذه الرؤية، قاموا بإنشاء بروتوكول تقليص لتقييم التوازن بين الجودة والاستهلاك الحاسوبي كدالة لطول التسلسل. وقد أظهرت الملاحظات أن التسلسلات التدريبية الأطول بعد حد معين لا تعطي الفوائد المرجوة، بل تستنزف موارد الذاكرة والمعالجة بشكل كبير. لذا، فإن تدريب النموذج على أول 50% من الرموز في كل تسلسل تدريبي يمكن أن يحافظ على ما يقرب من 91% من كفاءة الأداء على الاختبارات الرياضية، بينما تقلل من وقت التدريب واحتياجات الذاكرة واستخدام FLOPs بنسبة تصل إلى 50%.

هذا الابتكار يعد خطوة كبيرة نحو تطوير نماذج تفكير أكثر كفاءة وفعالية، مما يفتح الأبواب أمام تطبيقات جديدة ومثيرة في مجال الذكاء الاصطناعي. تعرفوا على الكودات المتاحة هنا لتجربة هذا الابتكار بأنفسكم.