في عالم الذكاء الصناعي، تأتي تقنيات التعلم المعزز (Reinforcement Learning) بمكافآت قابلة للتحقق (Verifiable Rewards) كأحد أبرز الأساليب لرفع مستوى تفكير نماذج اللغة الضخمة (LLMs). ومع ذلك، فإن النماذج الحالية تدمج عملية الاستكشاف والتقوية في عملية واحدة، مما يؤدي إلى صعوبات في الديناميات التعلّمية.

يفرض التعلم البشري نمطًا مميزًا قائمًا على اختلاف السلوك عند التعامل مع المشكلات. في حين أن البشر يميلون إلى الاستكشاف الواسع عند مواجهة تحديات جديدة، فإنهم ينصبّون تركيزهم على تنقيح الأفكار عند التعامل مع مسائل متقنة. وهنا يكمن الابتكار؛ إذ نقدم إطار عمل 'T2T' (Thickening-to-Thinning)، كمقاربة ديناميكية لتشكيل المكافآت مستلهمة من عمليات التعلم البشري.

يعتمد نظام 'T2T' على آليتين:
1. عند المحاولات الخاطئة، يشجع 'T2T' على "التكثيف" لاستكشاف مسارات جديدة،
2. وعند تحقيق الإجابات الصحيحة، يتحول النظام إلى "الترقيق"، مما يمنع التكرار ويدعم الثقة في النموذج.

أثبتت التجارب على مقياس الرياضيات (MATH-500) و(AIME) و(AMC) عبر 5 نماذج لغوية بارزة، أن 'T2T' يتفوق بشكل ملحوظ على الأساليب التقليدية، مما يوفر أداءً متفوقًا. هل يمكن أن يكون هذا التحول هو المستقبل لنماذج الذكاء الاصطناعي؟