في عالم الذكاء الاصطناعي، يعد تعلم التعزيز (Reinforcement Learning) أحد أهم المجالات، ولكن يعتمد بشكل كبير على إشارات المكافأة. وقد أصبحت الطرق الحالية مُعَاقة بسبب الحاجة إلى تسميات دقيقة يمكن التحقق منها، الأمر الذي يحد من استخدام هذه الأساليب في مجالات معينة فقط مثل الرياضيات أو تنفيذ الأكواد. كما أن جمع تسميات تفضيل الإنسان يعد مهمة مكلفة ويعاني من إمكانية استغلال المكافآت.
تقدم الدراسة الجديدة حلًا مبتكرًا تحت مسمى Cross-Model Entropy (CME)، وهو آلية تعتمد على إحتمالية استجابة مولد النصوص تحت نموذج مُختلف كمدقق. يُعتبر CME إشارة مكافأة خالية من التسميات، مما يعني أنه يمكن استخدامه دون الحاجة إلى التحقق من الدقة أو الاعتماد على آراء البشر. تعتمد الفكرة على مفهوم أن الاستجابات التي لا تجدها المدققات مفاجئة من المرجح أن تكون صحيحة أو ذات جودة عالية.
ما يميز CME هو استقلاله عن النموذج المُولد، مما يمنع إمكانية استغلاله من خلال الاتساق الذاتي. تم دمج CME بنجاح في نموذج GRPO، مما وسع نطاق تعلم التعزيز الخالي من التسميات ليشمل التعليمات المفتوحة - وهي بيئة تكون فيها الإشارات الذاتية غير قابلة للتطبيق أو غير مناسبة.
في اختبارات الأداء باستخدام أسئلة تعليمات مفتوحة (UltraFeedback) على مجموعة بيانات AlpacaEval 2.0، أثبت CME تفوقه على النماذج غير المدربة في مقارنة رأس على رأس عبر أربع أسر عائلية من نماذج اللغة مثل Qwen وLlama وGemma وOLMo، مع معدلات فوز تتراوح بين 52.5% و71.4%.
كلما زادت التطبيقات التي نكتشفها ونطور بها تقنيات التعلم الذاتي، يصبح المستقبل أكثر إثارة. ماذا تعتقد عن هذه الابتكارات في مجال الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات!
تعلم التعزيز بدون تسميات: ثورة Cross-Model Entropy في التدريب على نماذج الذكاء الاصطناعي!
تقدم هذه الدراسة مفهوم Cross-Model Entropy (CME) كإشارة مكافأة جديدة لتعلم التعزيز (Reinforcement Learning) بدون الحاجة إلى تسميات. فاز CME في تجارب تدريبية على نماذج ذكاء اصطناعي متعددة، مما يفتح آفاقاً جديدة لتحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
