في عالم الذكاء الاصطناعي، تحقق التعلم المعزز بمكافآت قابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) نجاحات باهرة، خاصة في تطوير نماذج لغوية ضخمة (Large Language Models - LLMs) باستخدام طرق تفكير سلسة لعدد من المهام مثل الرياضيات والبرمجة. لكن، يواجه هذا النوع من التعلم صعوبة كبيرة في كفاءة العينة، خصوصاً عند التعامل مع مشاكل معقدة حيث يكون من الصعب توليد نتائج صحيحة.
قدمت الأبحاث السابقة مقترحات لمعالجة هذه القضية من خلال التعلم المعزز الموجه بالمظاهرة (demonstration-guided RLVR)، حيث يتم إجراء تدريب إشرافي دقيق (Supervised FineTuning - SFT) عند فشل التعلم المعزز. ولكن، يتطلب SFT عادةً كمية كبيرة من البيانات، وهو ما يمكن أن يكون مكلفاً.
في هذا السياق، أطلق الباحثون خوارزمية جديدة تُعرف باسم FEST (FEw-ShoT demonstration-guided RLVR)، التي تُظهر نتائج مثيرة للإعجاب باستخدام فقط 128 مثالاً تم اختيارها عشوائياً من مجموعة بيانات SFT. وأظهرت التجارب أن ثلاثة مكونات أساسية كانت ضرورية لنجاح الخوارزمية: إشارات إشرافية، إشارات في سياق السياسة، وأوزان متناقصة على مجموعة بيانات SFT القليلة العينات لمنع الإفراط في التدريب.
عندما تم اختبار FEST على عدة معايير، تفوقت الخوارزمية على القواعد الأساسية مع بيانات SFT أقل بكثير، بل وحققت نتائج متقاربة مع الأداء الذي حققه استخدام مجموعة بيانات كاملة. هذه التطورات تمثل خطوة هامة نحو تحسين كفاءة التقنيات الحديثة في مجال التعلم المعزز.
تعزيز التعلم المعزز: مكافآت قابلة للتحقق من خلال إرشادات قليلة العينة
تسعى الأبحاث الحديثة إلى تحسين فعالية التعلم المعزز باستخدام مكافآت قابلة للتحقق وإرشادات محدودة. تقدم الخوارزمية FEST نتائج مذهلة مع الحد الأدنى من البيانات، مما يعزز كفاءة النماذج اللغوية الضخمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
