تقدّم الأبحاث الجديدة تقنية CAST (Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping) التي تعد ثورة في مجال تعزيز التعلم الآلي، خاصة في سياق تحسين النماذج اللغوية الكبيرة (Large Language Models).
حتى الآن، كان التعلم المعزز بالجوائز القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) يُستخدم بشكل واسع لتحسين قدرة النماذج اللغوية على التفكير المنطقي، إلا أن الجوائز المتاحة على مستوى النتائج توفر إشرافًا نادرًا. وفي ظلّ الاستخدام العادي، تختفي المزايا النسبية للمجموعة (Group-Relative Advantages) عندما تكون جميع النتائج للطلبات إما صحيحة أو خاطئة.
لذا، طُوّرت تقنية التعلم الذاتي على أساس السياسات (On-Policy Self-Distillation - OPSD) لتوفير توجيه كثيف على مستوى التوكن (Token Level). ولكن، كانت تفضيلات التوكن لدى التقنية لا تتماشى بالضرورة مع دقة المسارات، فتحليلات تجريبية تُظهر أن إشارات OPSD تتصرف بشكل مختلف على النتائج الصحيحة والخاطئة.
استنادًا إلى هذه الملاحظات، اقترحت الورقة العلمية طريقة CAST. تعتمد هذه الطريقة على التعليم الذاتي بدون اعتماد على الإجابات، متمسكةً بهدف تعزيز التعلم المعزز مبنيًا على التحقق (Verifier-Grounded GRPO Objective). من خلال استخدام مُعلم مستقيل (Stop-Gradient Self-Teacher)، تشكل CAST مزايا على مستوى التوكن بناءً على دقة المسارات.
على عكس طرق التعلم الذاتي السابقة، لا تحتاج CAST إلى تقييم المعلّم بناءً على حلول مرجعية، وتبقي على فارق الاحتمال النشط طوال فترة التدريب. تجارب على مهارات التفكير الرياضي أظهرت أن CAST قد حسّنت من تدريب RLVR مع الاحتفاظ بهدف مساري خفيف ومرتبط بالتحقق.
في ختام هذه التقنية الجديدة، يتطلع الباحثون إلى اتاحة آفاق جديدة للنماذج اللغوية، مما يدعم قدرة الذكاء الاصطناعي على تقديم استجابات دقيقة وموثوقة.
نحن متحمسون لرؤية كيف ستتطور هذه التقنية في المستقبل وما الذي يمكن أن تقدمه للعالم من إمكانيات جديدة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
اكتشاف جديد: طريقة CAST لتحسين التعلم الآلي عبر التعلم الذاتي المبتكر!
يُقدّم البحث الجديد تقنية CAST التي تعزز التعلم المعزز بتوجيهات دقيقة، مما يغيّر فهمنا لجودة النماذج اللغوية. تجربة جديدة في التعلم الذاتي ترتقي بأداء النماذج اللغوية الكبيرة وتحسن من قدرتها على التفكير المنطقي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
