تعلم التعزيز بدون تسميات: ثورة Cross-Model Entropy في التدريب على نماذج الذكاء الاصطناعي!

Q: ما هو موضوع مقال "تعلم التعزيز بدون تسميات: ثورة Cross-Model Entropy في التدريب على نماذج الذكاء الاصطناعي!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "تعلم التعزيز بدون تسميات: ثورة Cross-Model Entropy في التدريب على نماذج الذكاء الاصطناعي!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، يعد تعلم التعزيز (Reinforcement Learning) أحد أهم المجالات، ولكن يعتمد بشكل كبير على إشارات المكافأة. وقد أصبحت الطرق الحالية مُعَاقة بسبب الحاجة إلى تسميات دقيقة يمكن التحقق منها، الأمر الذي يحد من استخدام هذه الأساليب في مجالات معينة فقط مثل الرياضيات أو تنفيذ الأكواد. كما أن جمع تسميات تفضيل الإنسان يعد مهمة مكلفة ويعاني من إمكانية استغلال المكافآت.

تقدم الدراسة الجديدة حلًا مبتكرًا تحت مسمى Cross-Model Entropy (CME)، وهو آلية تعتمد على إحتمالية استجابة مولد النصوص تحت نموذج مُختلف كمدقق. يُعتبر CME إشارة مكافأة خالية من التسميات، مما يعني أنه يمكن استخدامه دون الحاجة إلى التحقق من الدقة أو الاعتماد على آراء البشر. تعتمد الفكرة على مفهوم أن الاستجابات التي لا تجدها المدققات مفاجئة من المرجح أن تكون صحيحة أو ذات جودة عالية.

ما يميز CME هو استقلاله عن النموذج المُولد، مما يمنع إمكانية استغلاله من خلال الاتساق الذاتي. تم دمج CME بنجاح في نموذج GRPO، مما وسع نطاق تعلم التعزيز الخالي من التسميات ليشمل التعليمات المفتوحة - وهي بيئة تكون فيها الإشارات الذاتية غير قابلة للتطبيق أو غير مناسبة.

في اختبارات الأداء باستخدام أسئلة تعليمات مفتوحة (UltraFeedback) على مجموعة بيانات AlpacaEval 2.0، أثبت CME تفوقه على النماذج غير المدربة في مقارنة رأس على رأس عبر أربع أسر عائلية من نماذج اللغة مثل Qwen وLlama وGemma وOLMo، مع معدلات فوز تتراوح بين 52.5% و71.4%.

كلما زادت التطبيقات التي نكتشفها ونطور بها تقنيات التعلم الذاتي، يصبح المستقبل أكثر إثارة. ماذا تعتقد عن هذه الابتكارات في مجال الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات!

تعلم التعزيز بدون تسميات: ثورة Cross-Model Entropy في التدريب على نماذج الذكاء الاصطناعي!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

ثورة في العلاج العصبي: جهاز جديد يُزرع في دماغ الإنسان من شركة ماكس هوداك