في عالم الذكاء الاصطناعي، تمثل نماذج اللغة (Language Models) واحدة من أهم الأدوات في تطوير تقنيات التفكير ومهارات معالجة اللغة الطبيعية. ومع ذلك، فإن عمليات تدريب هذه النماذج بشكل ما بعد التدريب عادة ما تعتمد على تقنيات محددة تتضمن التمييز (Distillation) والتعلم المعزز (Reinforcement Learning) مع مكافآت قابلة للتحقق. لكن هذه الطرق غالباً ما تواجه تحديات كبيرة، مثل الاعتماد على تمييزات قائمة على سلسلة من الأفكار التي قد تكون مكلفة في الحصول عليها، بالإضافة إلى إمكانية وجود ضوضاء في البيانات أو أن تكون غير مكتملة، مما يؤدي إلى تأثير سلبي على عملية التعلم.
لذلك، تم اقتراح إطار عمل جديد يسمى "التمييز الذاتي المشروط بالموجهات" (Rubric-Conditioned Self-Distillation)، والذي يسعى إلى توفير تغذية راجعة منظمة ودقيقة خلال عملية التمييز الذاتي. يعتمد هذا النموذج على الموجهات التي تحدد المعايير الضرورية، بما يتيح توجيه النماذج بناءً على هذه المعايير. ومن خلال هذا التصميم، يمكن تفادي الاعتماد على مبرر واحد كهدف للإشراف، حيث تحدد الموجهات ما يجب أن يحققه الرد القوي، مما يمكن من تخصيص التقدير بطريقة أدق وذات دلالة أكبر.
قمنا بتنفيذ هذا الإطار من خلال نموذج يعمل عبر مرحلتين، حيث تم أولاً تعلم كيفية إنتاج موجهات متعلقة بالمهام، وبعد ذلك تدريب نموذج مفكر مدعوم بالموجهات. وفي التجارب، أظهرت النتائج نجاح "التمييز الذاتي المشروط بالموجهات" في تحويل معايير الموجهات إلى توجيهات على مستوى الرموز، متجاوزة طرق التقييم السابقة بمعدل 1.0 نقطة مقارنة بمنهج GRPO و0.9 نقطة مقارنة بمنهج OPSD. هذه النتائج تبرهن على قدرة هذا الإطار على تحسين مستوى الأداء في المهام المتعلقة بالتفكير العلمي، مما يصنع فرقًا حقيقيًا في كيفية تدريب نماذج اللغة.
إعادة تصور الإشراف على المكافآت: طريقة جديدة للتمييز الذاتي باستخدام الموجهات
تبتكر دراسة جديدة طريقة مبتكرة تعرف باسم "التمييز الذاتي المشروط بالموجهات" لتحسين نماذج اللغة عبر الاستفادة من التغذية الراجعة التفصيلية. النتائج تظهر فعالية هذه الطريقة في تحسين أداء النماذج في مهام التفكير العلمي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
