أصبح التعلم المعزز (Reinforcement Learning) مع المكافآت القابلة للتحقق وسيلة شائعة لتحسين الاستدلال الواضح في نماذج اللغات الكبيرة (Large Language Models). ولكن هل تعلم أن صحة الإجابة النهائية فقط لا تكفي لتقييم جودة سلسلة الاستدلال؟ يمكن أن تكشف هذه الإشارة الناتجة عن النتيجة النهائية عن بعض العيوب. فعلى سبيل المثال، قد تعزز السلاسل الصحيحة التي تعتمد على أسباب خاطئة أو تضخم الفوائد بتشجيع الطرق السريعة وتساعد في انتشار حالات وسيطة خاطئة في الأنظمة متعددة الخطوات.

لذا، نقدم لكم تقنية TraceLift، وهي إطار عمل لتدريب المخططين والمنفذين يعالج الاستدلال كمنتج وسيط يمكن استهلاكه. خلال تدريب المخطط، يقوم المخطط بإصدار استدلالات مؤشرة. بينما يقوم منفذ ثابت بتحويل هذا الاستدلال إلى منتج نهائي للحصول على تعليقات من المدقق، الذي يشكل المكافأة المستندة إلى المنفذ سلسلة الاستدلال الوسيطة. هذه المكافأة تضرب نتيجة نموذج المكافأة المعتمد على مجموعة المعايير (Rubric-based Reasoning Reward Model) بالتحسين المقاس على نفس المنفذ الثابت، مما ينسب الفضل للسلاسل التي تكون عالية الجودة ومفيدة.

لجعل جودة الاستدلال قابلة للتعلم بشكل مباشر، قدمنا TRACELIFT-GROUPS، وهي مجموعة بيانات بعنوان فقط مبنية على مجموعة من مشكلات الرياضيات والبرمجة. يحتوي كل مثال على مجموعة من نفس المشكلة تتضمن سلسلة مرجعية عالية الجودة والعديد من السلاسل الخاطئة المحتملة مع تحورات محلية تقلل من جودة الاستدلال أو دعم الحل بينما تحافظ على صلة المهمة.

أظهرت التجارب الواسعة على معايير البرمجة والرياضيات أن المكافأة المستندة إلى المنفذ تحسن نظام التخطيط والتنفيذ المكون من مرحلتين مقارنةً بالتدريب القائم على التنفيذ فقط. وبالتالي، تشير النتائج إلى أن إشراف الاستدلال يجب أن يقيم ليس فقط ما إذا كانت السلسلة تبدو جيدة، ولكن أيضًا ما إذا كانت تساعد النموذج الذي يستهلكها. يمكنكم الاطلاع على الشيفرة المصدرية على: [https://github.com/MasaiahHan/TraceLift]