في عالم الذكاء الاصطناعي، يبرز دور التغذية الراجعة (Feedback) كأداة فارقة لتحسين أداء النماذج الخاصة باللغة. فما هو تأثير تصميم السياق على التعلم الذاتي (Self-Distillation

عندما يتم تدريب نموذج لغوي على سياق إضافي، مثل التغذية الراجعة في محاولة سابقة، تتحسن استجابته بشكل ملحوظ. لكن كيف يمكن لنموذج يعتمد على التعلم الذاتي أن يحتفظ بتحسيناته عند عدم وجود هذا السياق؟

تعمل تقنية التعلم الذاتي من خلال مطابقة توزيع مخرجات النموذج في بيئتين: أحدهما طالب يواجه السؤال فقط، والآخر معلم ذاتي يرى أيضًا السياق. ما يتعلمه النموذج يعتمد بشكل كبير على السياق الذي يتلقاه المعلم الذاتي، لكن تصميم هذا السياق لا يزال يحتاج إلى المزيد من البحث.

تمت دراسة تصميم السياق من خلال تدريب حلّال يستفيد من تغذية راجعة مقدمة من ناقد مجمد. تم مقارنة ثلاث حالات:
1. مكافأة ثنائية (GRPO).
2. الحل المرجعي.
3. نقد خطوة بخطوة متوافق مع مسار تفكير الحلّال.

أظهرت النتائج أن النقد المتوافق مع الخطوات حقق أكبر مكاسب، حيث تفوق على (GRPO) بفارق 16.11 نقطة، وعلى التعلم الذاتي القائم على الحل المرجعي بفارق 5.27 نقطة. تكشف التحليلات المتعلقة بكل رمز سبب هذا التفوق، حيث يركز النقد المتوافق على الرموز التي تُظهر فشلًا في التفكير، مما يترك سلوك النموذج الصحيح سليمًا. على النقيض من ذلك، فإن الاعتماد على الحل المرجعي يضغط على النموذج لتغيير سلوكه عند كل رمز، حتى عند الخطوات الصحيحة.

تشير هذه النتائج إلى أن التوافق الهيكلي بين التغذية الراجعة ومسار تفكير الحلّال يعد محركًا رئيسيًا لفعالية التعلم الذاتي. في ضوء هذه الدراسة، يبقى السؤال: كيف يمكن للذكاء الاصطناعي أن يستفيد أكثر من هذه الطرق المبتكرة في التعلم؟