في عالم الذكاء الاصطناعي المتسارع، تتقدم نماذج اللغات الضخمة (Large Language Models) بشكل ملحوظ، وخاصة عند تحسينها من خلال التعلم المعزز (Reinforcement Learning) والجوائز القابلة للتحقق. ومع ذلك، فإن الأساليب الحالية تعتمد بشكل أساسي على الإشراف القائم على النتائج، مما يؤدي غالبًا إلى استكشاف غير فعال وجوائز نادرة.
للتغلب على هذه التحديات، تم تقديم مفهوم جديد يحمل اسم "تحسين السياسات بمساعدة الخبراء" (Expert-Assisted Policy Optimization - EAPO). يعتبر هذا الإطار الجديد تمثيلًا مبتكرًا للتعلم المعزز، حيث يُعزز الاستكشاف من خلال دمج تفاعلات متعددة الأدوار مع خبراء خارجيين خلال فترة التدريب.
وعلى عكس الطرق السابقة، التي كان يتم فيها التفكير بشكل منعزل، يشجع EAPO السياسة على تحديد متى وكيف تستعين بالخبراء بشكل تفاعلي، مما يوفر إشارات جوائز أغنى ومسارات تفكير أكثر موثوقية. هذه المساعدة الخارجية تعمل على دمج المعرفة الخبيرة داخل نموذج السياسة، مما يعزز من قدرات النموذج الفكرية.
أظهرت عمليات التقييم أن النموذج السياسي قد تم تحسينه بشكل جيد لحل الأسئلة بشكل مستقل، مما ينتج عنه تحسين مسارات التفكير وحلول أكثر دقة. في المنافسات مثل AIME 2024/2025 وAIMO 2025، تفوق EAPO باستمرار على الأساليب التقليدية المدعومة بالخبراء، محققًا متوسط تقدم قدره 5 نقاط مقارنة بالتعلم الذاتي، كما استطاع النموذج التعميم على معايير غير الرياضيات بما في ذلك HumanEval وHLE وGPQA وMMLU وEvalPlus وHotpotQA وSimpleQA.
انطلاقة جديدة في تحسين السياسات: EAPO يجمع بين الذكاء الاصطناعي والمساعدة الخبيرة
كشفت دراسة جديدة عن إطار العمل EAPO، الذي يُحسن استراتيجيات التعلم المعزز (RL) من خلال دمج المساعدة الخبيرة لزيادة فعالية الاستكشاف. النظام الجديد يُظهر تحسينات ملحوظة في مسارات التفكير وحل المشكلات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
