لقد حقق التعلم المعزز (Reinforcement Learning) نجاحًا ملحوظًا في رفع كفاءة نماذج اللغة التلقائية (Autoregressive Language Models) بعد التدريب، لكن التحديات تزداد عندما نرغب في تطبيق هذه الطرق على نماذج اللغة الانتشارية (Diffusion Language Models) بسبب عدم إمكانية حساب احتمالات التسلسل على مستوى عالية. وتعتمد الأساليب الحالية في الغالب على نسبة تقريبية أو تقديرات تستند إلى الأساليب التقديرية، مما يؤدي إلى إدخال تحيزات ويعيق فهم الهيكل التسلسلي لعملية إزالة الضوضاء.
في دراسة جديدة، تمت صياغة عملية توليد التسلسل القائمة على الانتشار كعملية قرار ماركوف ذات أفق محدود على مسار إزالة الضوضاء، وتم تطوير دالة تكلفة قائمة على سياسة دقيقة تخلو من التحيز، مع تفكيكها على خطوات إزالة الضوضاء، وذلك دون الحاجة إلى تقييم الاحتمالية التسلسلية بشكل صريح.
للحصول على تقدير عملي وفعّال من حيث الحساب، تم تطوير أسلوب انتخاب خطوات إزالة الضوضاء لتحديث السياسات من خلال حدود approximated entropy-guided، وقمنا بتقدير المزايا الوسيطة باستخدام مكافأة إزالة الضوضاء ذات الخطوة الواحدة المقدمة بشكل طبيعي بواسطة نموذج الانتشار، متجنبين المشروعات الوثيقة المكلفة.
أظهرت التجارب في مجال البرمجة والاستدلال المنطقي نتائج متقدمة، متفوقة على الأساليب الحالية تمامًا في معالجة التحديات في الاستدلال الرياضي. يمكنكم الاطلاع على الشيفرات المصدرية على GitHub [https://github.com/vishnutez/egspo-dllm-rl] وتطبيق هذه الابتكارات في مشاريعكم القادمة.
ما رأيكم في إمكانيات التعلم المعزز لتحسين النماذج الانتشارية؟ شاركونا في التعليقات.
استكشاف التعلم المعزز لتحسين نماذج اللغة الانتشارية: خطوات مبتكرة نحو الأداء الأمثل!
تقدم الأبحاث الأخيرة في مجالات التعلم المعزز (Reinforcement Learning) ونماذج اللغة الانتشارية (Diffusion Language Models) أساليب جديدة لتحسين الأداء. تمثل هذه التطورات خطوة قوية نحو معالجة التحديات المعقدة التي تواجه هذه النماذج في الترفيع من دقتها وكفاءتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
