استكشاف التعلم المعزز لتحسين نماذج اللغة الانتشارية: خطوات مبتكرة نحو الأداء الأمثل!

لقد حقق التعلم المعزز (Reinforcement Learning) نجاحًا ملحوظًا في رفع كفاءة نماذج اللغة التلقائية (Autoregressive Language Models) بعد التدريب، لكن التحديات تزداد عندما نرغب في تطبيق هذه الطرق على نماذج اللغة الانتشارية (Diffusion Language Models) بسبب عدم إمكانية حساب احتمالات التسلسل على مستوى عالية. وتعتمد الأساليب الحالية في الغالب على نسبة تقريبية أو تقديرات تستند إلى الأساليب التقديرية، مما يؤدي إلى إدخال تحيزات ويعيق فهم الهيكل التسلسلي لعملية إزالة الضوضاء.

في دراسة جديدة، تمت صياغة عملية توليد التسلسل القائمة على الانتشار كعملية قرار ماركوف ذات أفق محدود على مسار إزالة الضوضاء، وتم تطوير دالة تكلفة قائمة على سياسة دقيقة تخلو من التحيز، مع تفكيكها على خطوات إزالة الضوضاء، وذلك دون الحاجة إلى تقييم الاحتمالية التسلسلية بشكل صريح.

للحصول على تقدير عملي وفعّال من حيث الحساب، تم تطوير أسلوب انتخاب خطوات إزالة الضوضاء لتحديث السياسات من خلال حدود approximated entropy-guided، وقمنا بتقدير المزايا الوسيطة باستخدام مكافأة إزالة الضوضاء ذات الخطوة الواحدة المقدمة بشكل طبيعي بواسطة نموذج الانتشار، متجنبين المشروعات الوثيقة المكلفة.

أظهرت التجارب في مجال البرمجة والاستدلال المنطقي نتائج متقدمة، متفوقة على الأساليب الحالية تمامًا في معالجة التحديات في الاستدلال الرياضي. يمكنكم الاطلاع على الشيفرات المصدرية على GitHub [https://github.com/vishnutez/egspo-dllm-rl] وتطبيق هذه الابتكارات في مشاريعكم القادمة.

ما رأيكم في إمكانيات التعلم المعزز لتحسين النماذج الانتشارية؟ شاركونا في التعليقات.

استكشاف التعلم المعزز لتحسين نماذج اللغة الانتشارية: خطوات مبتكرة نحو الأداء الأمثل!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!

بحيرة تاهو في وادي السيليكون: كيف تؤثر ارتفاع أسعار الطاقة بسبب الذكاء الاصطناعي على مناخ الترفيه؟