في السنوات الأخيرة، شكلت [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) الضبابية (Diffusion Language [Models](/tag/models)) بديلاً جذابًا للنماذج التلقائية، لكن أمام هذه [النماذج](/tag/النماذج) [تحديات](/tag/تحديات) كبيرة تتعلق بكيفية تعيين الأهمية [عبر](/tag/عبر) خطوات [إزالة الضوضاء](/tag/إزالة-الضوضاء).
تظهر [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) بعنوان Denoising-Aware Credit Assignment for [GRPO](/tag/grpo) (DACA-[GRPO](/tag/grpo)) كيف يمكن لهذه المشكلات أن تُحل بتقنيات مبتكرة. حيث تحدد [الدراسة](/tag/الدراسة) نقطتين ضعف رئيسيتين في الأساليب الحالية للتعلم المعزز: الأولى هي غياب [تخصيص](/tag/تخصيص) [الائتمان](/tag/الائتمان) الزمني [عبر](/tag/عبر) خطوات إزالة الضوضاء، والثانية هي الانحياز النظامي في تقديرات الاحتمالات المتوسطة.
DACA-[GRPO](/tag/grpo) هو نظام خفيف الوزن يمكن إدماجه مع أي مدرب بأسلوب GRPO، حيث يقدم آليتين متميزتين:
1. **درجات تقدم الإزالة (Denoising Progress Scores)** التي تستخلص أوزان الأهمية لكل رمز من [التوقعات](/tag/التوقعات) الوسيطة دون تحميل إضافي.
2. **تقدير التسلسل الطبقي (Stratified Masking Likelihood)** الذي يقسم مواقع الرموز إلى طبقات، مما يعزز سياق كل رمز من تسلسل أكبر، مما يُقلل من [انحياز](/tag/انحياز) التقديرات.
تم تطبيق هذا النظام على ثلاث طرق أساسية باستخدام GRPO، وطرحت النتائج [تحسينات](/tag/تحسينات) ملحوظة [عبر](/tag/عبر) سبعة [اختبارات](/tag/اختبارات) مختلفة تشمل [التفكير](/tag/التفكير) الرياضي، وتوليد الأكواد، وتلبية [القيود](/tag/القيود). هذه التحسينات حققت زيادات تصل إلى 5.6 نقطة مئوية في [التفكير](/tag/التفكير) الرياضي، و7.4 نقطة مئوية في [توليد](/tag/توليد) الأكواد، و36.3 نقطة مئوية في تلبية القيود، و5.9 نقطة مئوية في [الالتزام](/tag/الالتزام) بمخططات JSON.
كيف تعتقد أن هذه [الابتكارات](/tag/الابتكارات) ستؤثر على [مستقبل](/tag/مستقبل) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) الضبابية؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
ثورة جديدة في التعلم المعزز: طريقة DACA-GRPO لتحسين نماذج اللغة الضبابية
في خطوة متقدمة لعالم الذكاء الاصطناعي، تقدم DACA-GRPO نظامًا مبتكرًا لتحسين عملية التعلم المعزز في نماذج اللغة الضبابية. تعالوا لاكتشاف كيف تعزز هذه الطريقة دقة النماذج وتقلل من الأخطاء!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
