تعتبر استراتيجيات التعلم المستمر في مجال الذكاء الاصطناعي من أكثر التوجهات الجذابة التي توفر الحلول لتحديات معالجة البيانات. وفي هذا السياق، ظهر نظام Dropout-GRPO (Group Relative Policy Optimization) كحلاً رائداً.
يعتمد نظام GRPO على تنوع $K$ من تجمعات المعلومات، ولكن هذا الأمر يمكن أن يسبب تحديات هيكلية للنماذج التي تعتمد على التفكير المتواصل مثل نموذج Coconut. فالمرحلة الكامنة في هذه النماذج تكون حتمية، مما يؤدي إلى إنتاج مسارات متطابقة خلال عمليات التعلم، مما يحد من تقدم النموذج.
لمعالجة هذه المشكلة، اقترح الباحثون استخدام مبدأ "الإسقاط المنظم" (structured dropout). يتضمن ذلك تطبيق قناع برنولي ثابت عبر جميع خطوات التكرار الكامنة لنموذج معين، مما يولد تنوعاً في المسارات اللازمة. هذا القناع العملي يعامل كل مجموعة كنموذج عشوائي مستمد من توزيع تبايني على المعلمات، مما يساعد على تحسين المكافآت المتوقعة لنموذج متوسطي بايزي.
تتضمن الدراسة تبريراً نظرياً لهذه الطريقة، بما في ذلك تحسينات في تقليل التباين وضمان تعريف جيد للتدرجات الكامنة. ولقد أظهرت النتائج التجريبية عند قياس فعالية النموذج على مجموعة بيانات GSM8K أن استخدام نظام Dropout-GRPO أدى إلى تحسين نسبة النجاح من 27.29% إلى 29.01%. مما يدل على فعالية هذا النهج في تعزيز تعلم النماذج المعتمدة على التفكير المتواصل.
يتم وضع هذا النظام كخطوة عملية ومؤسسة نظرياً في تحسين النماذج المستندة إلى التفكير المتواصل بعد التدريب، مما يعطي الأمل في تحقيق قفزات نوعية في مجال الذكاء الاصطناعي.
ثورة التعلم المستمر: طريقة Dropout-GRPO في تحسين الأداء للذكاء الاصطناعي!
تقدم دراسة جديدة نظام Dropout-GRPO الذي يعزز استراتيجيات التعلم في نماذج الذكاء الاصطناعي، مما يحل تحديات التغيير في إدراك المعلومات. النتائج تظهر تحسنًا ملحوظًا في الأداء، مما يعد خطوة جديدة في تحسين النماذج المستندة إلى التفكير المتواصل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
