في عالم الذكاء الاصطناعي المتطور، تظهر تقنيات جديدة باستمرار لتحسين فعالية نماذج التعلم. واحدة من هذه التقنيات هي تقنية استخراج المعرفة (On-Policy Distillation)، التي تقدم إشرافاً كثيفاً لكل توكن (token) يُستخدم في تدريب نماذج التفكير. ومع ذلك، يظل التساؤل مطروحاً: ما هي الظروف التي تجعل هذا النوع من الإشراف مفيداً، وأي منها يمكن أن يؤدي إلى نتائج سلبية؟
يتطلب تحقيق أفضل أداء من نموذج التعلم الآلي اختيار المعلم المناسب، بالإضافة إلى تحديد السياق الذي يجب استخدامه كإشارة إشرافية خاصة في حال كان التحسين ذاتي (self-distillation). من المهم أيضاً معرفة ما إذا كانت الخيارات المثلى تختلف من توكن إلى آخر.
للإجابة على هذه التساؤلات، تم تقديم إطار تشخيصي لا يتطلب تدريباً مكلفاً، يعمل على مستوى عالٍ من الدقة: لكل توكن، لكل سؤال، ولكل معلم. لقد تم تطوير خوارزمية استهداف الاستجابة القابلة للتطوير (targeted-rollout) لتقدير التدرجات بكفاءة، حتى بالنسبة لسلاسل التفكير الطويلة.
يتم قياس توافق التدرجات باستخدام مقياس محاذاة التدرج، والذي يُعرف بإيجاد الزاوية بين التدرج المثالي وأي تدرج استخراجي. وقد أظهرت النتائج أن إرشادات الاستخراج تتماشى بشكل أفضل مع التدرجات المثالية في عمليات الاستخراج الخاطئة مقارنة بالصحيحة، حيث يميل إشراف المعلم إلى الضوضاء عند أداء الطالب الجيد.
كما وجدنا أن سياق الاستخراج الأمثل يعتمد بشكل مشترك على قدرة نموذج الطالب ومهمة الهدف، وأنه لا يوجد تكوين فعّال بشكل عالمي. تدفع هذه الاكتشافات نحو استخدام تحليلات تشخيصية لكل مهمة وتوكن لتحسين عملية الاستخراج.
كشف أسرار تقنيات استخراج المعرفة: متى تفيد وأين تضر؟
تتناول هذه المقالة فعالية تقنية استخراج المعرفة (On-Policy Distillation) في تدريب نماذج التفكير، مشيرة إلى الظروف التي تكون فيها مفيدة وأخرى تكون فيها ضارة. اعرف كيف يؤثر اختيار النموذج المعلم والسياق الإشرافي على النتائج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
