في السنوات الأخيرة، شكلت نماذج اللغة الضبابية (Diffusion Language Models) بديلاً جذابًا للنماذج التلقائية، لكن أمام هذه النماذج تحديات كبيرة تتعلق بكيفية تعيين الأهمية عبر خطوات إزالة الضوضاء.
تظهر دراسة جديدة بعنوان Denoising-Aware Credit Assignment for GRPO (DACA-GRPO) كيف يمكن لهذه المشكلات أن تُحل بتقنيات مبتكرة. حيث تحدد الدراسة نقطتين ضعف رئيسيتين في الأساليب الحالية للتعلم المعزز: الأولى هي غياب تخصيص الائتمان الزمني عبر خطوات إزالة الضوضاء، والثانية هي الانحياز النظامي في تقديرات الاحتمالات المتوسطة.
DACA-GRPO هو نظام خفيف الوزن يمكن إدماجه مع أي مدرب بأسلوب GRPO، حيث يقدم آليتين متميزتين:
1. **درجات تقدم الإزالة (Denoising Progress Scores)** التي تستخلص أوزان الأهمية لكل رمز من التوقعات الوسيطة دون تحميل إضافي.
2. **تقدير التسلسل الطبقي (Stratified Masking Likelihood)** الذي يقسم مواقع الرموز إلى طبقات، مما يعزز سياق كل رمز من تسلسل أكبر، مما يُقلل من انحياز التقديرات.
تم تطبيق هذا النظام على ثلاث طرق أساسية باستخدام GRPO، وطرحت النتائج تحسينات ملحوظة عبر سبعة اختبارات مختلفة تشمل التفكير الرياضي، وتوليد الأكواد، وتلبية القيود. هذه التحسينات حققت زيادات تصل إلى 5.6 نقطة مئوية في التفكير الرياضي، و7.4 نقطة مئوية في توليد الأكواد، و36.3 نقطة مئوية في تلبية القيود، و5.9 نقطة مئوية في الالتزام بمخططات JSON.
كيف تعتقد أن هذه الابتكارات ستؤثر على مستقبل نماذج اللغة الضبابية؟ شاركونا آراءكم في التعليقات!
ثورة جديدة في التعلم المعزز: طريقة DACA-GRPO لتحسين نماذج اللغة الضبابية
في خطوة متقدمة لعالم الذكاء الاصطناعي، تقدم DACA-GRPO نظامًا مبتكرًا لتحسين عملية التعلم المعزز في نماذج اللغة الضبابية. تعالوا لاكتشاف كيف تعزز هذه الطريقة دقة النماذج وتقلل من الأخطاء!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
