توجيه مكافأة قائم على الفوضى: ثورة جديدة في نماذج اللغات المتقطعة

تحتل نماذج اللغات المتقطعة (Discrete Diffusion Language Models) مكانة بارزة في عالم الذكاء الاصطناعي، لكن توجيه المكافأة (Reward Guidance) ضمن هذه النماذج لا يزال يمثل تحديًا كبيرًا. في دراسة جديدة تم تقديمها على منصة arXiv، قام الباحثون بالبحث في توجيه المكافأة باستخدام آلية جديدة تُعرف باسم EntRGi (Entropy aware Reward Guidance).

يشكل توجيه المكافأة المعروف أيضًا بالعينة اللاحقة (Posterior Sampling) أداة مهمة في عملية التكيف مع البيانات الجديدة خلال اختبار النماذج، ولكنه يواجه صعوبة مع النماذج المتقطعة نظرًا لصعوبة التمييز بين المخرجات الطبيعية العشوائية التي تنتجها.

تقدم الآلية الجديدة EntRGi طريقة مبتكرة للتغلب على هذا التحدي من خلال دمج ديناميكي بين تعديلات الرموز المستمرة (Continuous Token Relaxations) والرموز الصعبة الم sampled. يعتمد هذا الأسلوب على فوضى التنبؤ (Predictive Entropy) للنموذج، مما يسمح بتحسين دقة عملية التوجيه.

ووفقًا للنتائج، أثبتت EntRGi أنها تحافظ على موثوقية نموذج المكافأة ودقة التحسين، بينما تضحي الأساليب الحالية بأحدهما لصالح الآخر. وقد تم اختبار الأسلوب الجديد على نماذج معتمدة على 7 مليار معلمة (7B-parameter) في سيناريوهين مختلفين: (1) التكيف في وقت الاختبار، و(2) تعلم التعزيز الموجه بالمكافأة (RGRL - Reward Guided Reinforcement Learning)، مما يظهر تحسينات ملحوظة مقارنة بالأساليب الناجحة الأخرى.

تمنحنا هذه النتائج انعكاسًا إيجابيًا حول قدرة التطورات الحديثة في الذكاء الاصطناعي على تحسين التجارب مع نماذج ذات تعقيد عال. دعونا نستعد لحقبة جديدة من الابتكار في هذا المجال!

توجيه مكافأة قائم على الفوضى: ثورة جديدة في نماذج اللغات المتقطعة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

إطلاق نموذج Granite Embedding متعدد اللغات: ثورة جديدة في جودة الاسترجاع تحت 100 مليون!

ثورة في محاكاة المستخدمين: تصاميم شخصية واقعية لتعزيز أداء وكلاء الذكاء الاصطناعي

تعزيز كفاءة نماذج الذكاء الاصطناعي: استراتيجية حديثة للتمييز الذاتي الموجه