في عالم الذكاء الاصطناعي، يعد تحسين نماذج اللغة الكبيرة (Large Language Models) دون الحاجة إلى إشراف خارجي تحدياً رئيسياً، خصوصاً في مهام التفكير المعقد. تواجه الأساليب الحالية، مثل التعلم الذاتي (Self-Distillation) والتعلم المعزز (Reinforcement Learning)، بعض العقبات في تتبع تقدم التعلم على مستوى المشكلة، مما يجعلها تفشل أحياناً في علاج الحالات الصعبة بشكل كافٍ.
لذا، تم اقتراح نظام جديد يُعرف بـ DRIFT، والذي يمثل إطاراً مبتكراً لتحسين العملية الذاتية لنماذج اللغة الكبيرة. يعتمد DRIFT على استخدام مزيج من استراتيجيات Difficulty Routing وRhythm Gating، حيث تسمح الأولى بتحديد حالة التعلم على مستوى المشكلة وتخصيص إشارات التعلم بشكل ديناميكي، بينما تعمل الثانية على تحسين تحديثات السياسة على مستوى الرموز (Tokens)، مما يركز الاستكشاف على مواقع التفكير الحرجة.
تتضمن استراتيجية DRIFT أيضاً استخدام حافظة النجاح (Success Buffer) واستراتيجية التعلم المنهجي على مرحلتين، وهي أساليب تعزز من جودة التجارب السابقة وتجعلها أكثر فعالية في توجيه عملية التعلم. تمت تجربة DRIFT عبر خمسة مقاييس وثلاثة مقاييس للنموذج، حيث تجاوز أداءه كل من الأساليب السابقة GRPO وSDPO في جميع المعايير.
والأكثر إثارة للإعجاب، أن DRIFT حققت متوسط نتيجة 79.5%، متفوقة على GRPO بحوالي 9.5% وSDPO بحوالي 7.5%. كما حققت DRIFT دقة 79.2% في اختبار ToolUse، متجاوزة GRPO بـ 13.5% وSDPO بـ 10.7%، مما يضعها في موقع الريادة في هذا المجال.
تكنولوجيا جديدة تسجل إنجازاً استثنائياً: DRIFT تعيد تعريف التعلم الذاتي لنماذج اللغة!
يقوم نظام DRIFT بتقديم إطار جديد يتيح لنماذج اللغة الكبير تحقيق تحسن ذاتي مستقر بدون إشراف خارجي. وقد أثبت هذا النظام كفاءته عبر تجاوز أداء النماذج التقليدية المعروفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
