تعزيز التعلم المعزز: مكافآت قابلة للتحقق من خلال إرشادات قليلة العينة

في عالم الذكاء الاصطناعي، تحقق التعلم المعزز بمكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) نجاحات باهرة، خاصة في تطوير نماذج لغوية ضخمة (Large Language Models - LLMs) باستخدام طرق تفكير سلسة لعدد من المهام مثل الرياضيات والبرمجة. لكن، يواجه هذا النوع من التعلم صعوبة كبيرة في كفاءة العينة، خصوصاً عند التعامل مع مشاكل معقدة حيث يكون من الصعب توليد نتائج صحيحة.

قدمت الأبحاث السابقة مقترحات لمعالجة هذه القضية من خلال التعلم المعزز الموجه بالمظاهرة (demonstration-guided RLVR)، حيث يتم إجراء تدريب إشرافي دقيق (Supervised FineTuning - SFT) عند فشل التعلم المعزز. ولكن، يتطلب SFT عادةً كمية كبيرة من البيانات، وهو ما يمكن أن يكون مكلفاً.

في هذا السياق، أطلق الباحثون خوارزمية جديدة تُعرف باسم FEST (FEw-ShoT demonstration-guided RLVR)، التي تُظهر نتائج مثيرة للإعجاب باستخدام فقط 128 مثالاً تم اختيارها عشوائياً من مجموعة بيانات SFT. وأظهرت التجارب أن ثلاثة مكونات أساسية كانت ضرورية لنجاح الخوارزمية: إشارات إشرافية، إشارات في سياق السياسة، وأوزان متناقصة على مجموعة بيانات SFT القليلة العينات لمنع الإفراط في التدريب.

عندما تم اختبار FEST على عدة معايير، تفوقت الخوارزمية على القواعد الأساسية مع بيانات SFT أقل بكثير، بل وحققت نتائج متقاربة مع الأداء الذي حققه استخدام مجموعة بيانات كاملة. هذه التطورات تمثل خطوة هامة نحو تحسين كفاءة التقنيات الحديثة في مجال التعلم المعزز.

تعزيز التعلم المعزز: مكافآت قابلة للتحقق من خلال إرشادات قليلة العينة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

بحيرة تاهو في وادي السيليكون: كيف تؤثر ارتفاع أسعار الطاقة بسبب الذكاء الاصطناعي على مناخ الترفيه؟

دراما قصيرة من الصين: كيف تحولت إلى آلات إنتاج محتوى ذكي!

GraphBit: ابتكار مثير في تنسيق العمل للذكاء الاصطناعي يعيد تعريف التحكم في الوكلاء