تحتل نماذج اللغات المتقطعة (Discrete Diffusion Language Models) مكانة بارزة في عالم الذكاء الاصطناعي، لكن توجيه المكافأة (Reward Guidance) ضمن هذه النماذج لا يزال يمثل تحديًا كبيرًا. في دراسة جديدة تم تقديمها على منصة arXiv، قام الباحثون بالبحث في توجيه المكافأة باستخدام آلية جديدة تُعرف باسم EntRGi (Entropy aware Reward Guidance).
يشكل توجيه المكافأة المعروف أيضًا بالعينة اللاحقة (Posterior Sampling) أداة مهمة في عملية التكيف مع البيانات الجديدة خلال اختبار النماذج، ولكنه يواجه صعوبة مع النماذج المتقطعة نظرًا لصعوبة التمييز بين المخرجات الطبيعية العشوائية التي تنتجها.
تقدم الآلية الجديدة EntRGi طريقة مبتكرة للتغلب على هذا التحدي من خلال دمج ديناميكي بين تعديلات الرموز المستمرة (Continuous Token Relaxations) والرموز الصعبة الم sampled. يعتمد هذا الأسلوب على فوضى التنبؤ (Predictive Entropy) للنموذج، مما يسمح بتحسين دقة عملية التوجيه.
ووفقًا للنتائج، أثبتت EntRGi أنها تحافظ على موثوقية نموذج المكافأة ودقة التحسين، بينما تضحي الأساليب الحالية بأحدهما لصالح الآخر. وقد تم اختبار الأسلوب الجديد على نماذج معتمدة على 7 مليار معلمة (7B-parameter) في سيناريوهين مختلفين: (1) التكيف في وقت الاختبار، و(2) تعلم التعزيز الموجه بالمكافأة (RGRL - Reward Guided Reinforcement Learning)، مما يظهر تحسينات ملحوظة مقارنة بالأساليب الناجحة الأخرى.
تمنحنا هذه النتائج انعكاسًا إيجابيًا حول قدرة التطورات الحديثة في الذكاء الاصطناعي على تحسين التجارب مع نماذج ذات تعقيد عال. دعونا نستعد لحقبة جديدة من الابتكار في هذا المجال!
توجيه مكافأة قائم على الفوضى: ثورة جديدة في نماذج اللغات المتقطعة
تقدم الورقة البحثية الجديدة آلية مبتكرة تعرف باسم EntRGi، التي تحسن توجيه المكافأة في نماذج اللغات المتقطعة. تسفر النتائج عن تحسينات مستمرة في أداء نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
