هل تساءلت يومًا عما إذا كانت نماذج اللغة (Language Models) يمكن أن تحسن أدائها في التفكير دون الحاجة إلى مكافآت خارجية؟ هذا ما أثبتته الأبحاث الأخيرة، حيث قدم فريق من الباحثين تقنية مبتكرة تُعرف باسم التدريب الذاتي المتطور (Self-evolving Post-Training - SePT).

تعمل هذه التقنية بنظام بسيط يخلط بين التوليد الذاتي والتدريب على الردود التي تم توليدها بنفس النموذج. ولتوضيح هذا الأمر، يقوم النموذج بتكرار اقتراح أسئلة، ثم يستخدم نفسه لتوليد الردود بناءً على درجة حرارة عشوائية محددة، ومن بعدها يتم تدريب النموذج على هذه البيانات المولّدة ذاتيًا. يعني ذلك أن كل دفعة جديدة من البيانات يتم إنتاجها بواسطة النموذج نفسه بعد تحديثه، مما يعزز التجدد والتطور في الأداء.

تظهر النتائج أن التقنية SePT تمكنت من تحسين الأداء في ستة اختبارات رياضية، محققة تقدمًا ملحوظًا على نماذج لم تتلقَ أي تدريب مسبق. وهذه النتائج تدلل على أهمية آلية تجديد البيانات عبر الإنترنت وديناميكيات درجة الحرارة في بيئات التدريب. بشكل عام، تقدم هذه الدراسة نهجًا عمليًا حيث يمكن تحسين مهارات التفكير بمساعدة الإشراف المولّد ذاتيًا فقط.

إذا كنت مهتمًا بالتفاصيل التقنية، يمكنك الوصول إلى الكود الخاص بهذه التقنية عبر GitHub. ماذا عنكم، هل تتوقعون أن تغير هذه التقنية مستقبل نماذج الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!