في عالم الذكاء الصناعي، تأتي تقنيات التعلم المعزز (Reinforcement Learning) بمكافآت قابلة للتحقق (Verifiable Rewards) كأحد أبرز الأساليب لرفع مستوى تفكير نماذج اللغة الضخمة (LLMs). ومع ذلك، فإن النماذج الحالية تدمج عملية الاستكشاف والتقوية في عملية واحدة، مما يؤدي إلى صعوبات في الديناميات التعلّمية.
يفرض التعلم البشري نمطًا مميزًا قائمًا على اختلاف السلوك عند التعامل مع المشكلات. في حين أن البشر يميلون إلى الاستكشاف الواسع عند مواجهة تحديات جديدة، فإنهم ينصبّون تركيزهم على تنقيح الأفكار عند التعامل مع مسائل متقنة. وهنا يكمن الابتكار؛ إذ نقدم إطار عمل 'T2T' (Thickening-to-Thinning)، كمقاربة ديناميكية لتشكيل المكافآت مستلهمة من عمليات التعلم البشري.
يعتمد نظام 'T2T' على آليتين:
1. عند المحاولات الخاطئة، يشجع 'T2T' على "التكثيف" لاستكشاف مسارات جديدة،
2. وعند تحقيق الإجابات الصحيحة، يتحول النظام إلى "الترقيق"، مما يمنع التكرار ويدعم الثقة في النموذج.
أثبتت التجارب على مقياس الرياضيات (MATH-500) و(AIME) و(AMC) عبر 5 نماذج لغوية بارزة، أن 'T2T' يتفوق بشكل ملحوظ على الأساليب التقليدية، مما يوفر أداءً متفوقًا. هل يمكن أن يكون هذا التحول هو المستقبل لنماذج الذكاء الاصطناعي؟
تعزيز تفكير نماذج اللغة الضخمة من خلال تشكيل المكافآت المستلهمة من التعلم البشري
ظهرت أساليب التعلم المعزز بمكافآت قابلة للتحقق كمنهج واعد في تحسين قدرات التفكير في نماذج اللغة الضخمة (LLMs). نقدم إطار عمل جديد، 'T2T'، الذي يستلهم أساليب التعلم البشري ليحقق نتائج تفوق الأساليب التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
