في عالم التعلم الذاتي (Reinforcement Learning)، تبرز الحاجة المستمرة لتحسين قدرات النماذج الكبرى مثل النماذج اللغوية الضخمة (Large Language Models) ونماذج اللغة والرؤية (Vision-Language Models). من خلال أبحاث جديدة، تم تطوير إطار عمل مبتكر يُعرف بالتحكم الموحد في الإنتروبيا (Unified Entropy Control) الذي يُعرف اختصارًا بـ UEC-RL.
تواجه الطرق التقليدية مثل تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO) العديد من التحديات، أبرزها انهيار الإنتروبيا، مما يسبب تدهورًا في تنوع السياسات بسبب التقاء مبكر. تتسبب طرق الاستكشاف الحالية في إدخال تحيز أو تباين إضافي، مما يصعّب الحفاظ على استقرار التهيئة.
يقدم UEC-RL طريقة مبتكرة لاستكشاف المهام، حيث يعمل على تفعيل استكشاف أكثر شمولاً للمهام الصعبة والبحث عن مسارات استدلال قيّمة. وفي الوقت نفسه، يتضمن نموذجًا مثبتًا يمكّن من ضبط الإنتروبيا وتقليل النمو الفوضوي، مما يحافظ على استقرار التدريب أثناء تعزيز سلوكيات موثوقة.
أظهرت التجارب على مهام استدلال النماذج الكبرى والنماذج اللغوية والرؤية مكاسب ثابتة مقارنة بأساليب التعلم الذاتي التقليدية، حيث حقق UEC-RL تحسنًا نسبته 37.9% ضمن نتائج Geometry3K. يُعتبر هذا الإنجاز خطوة هامة نحو توسيع استكشاف التعلم الذاتي في النماذج الكبيرة دون التأثير على سرعة التقارب.
للمزيد من التفاصيل، يُمكنك زيارة [الكود الخاص بنا](https://github.com/597358816/UEC-RL). ما رأيكم في هذه الخطوات نحو تحسين استكشاف الذكاء الاصطناعي؟ شاركونا في التعليقات.
استكشاف مستهدف عبر السيطرة الموحدة على الإنتروبيا لتعزيز التعلم الذاتي
تقدم تقنيات التعلم الذاتي خطوة جديدة مع نموذج السيطرة الموحدة على الإنتروبيا، الذي يحسن من استكشاف المهام الصعبة دون فقدان التنوع. يدعم UEC-RL فعالية التعليم ويعزز احتمالات النجاح في النماذج الكبرى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
