في عالم الذكاء الاصطناعي، يظل تحسين قدرات التفكير من أولويات الباحثين. قدم الباحثون تقنية جديدة تُعرف باسم توجيه المكافآت الكامنة (Latent Reward Steering - LRS)، وهي إطار زمني مبتكر يهدف إلى تعزيز السلوكيات العقلية الفعالة خلال عمليات الاستدلال في نماذج اللغات الكبيرة (Large Language Models - LLMs).

تُظهر الدراسـات أن النجاح في عمليات التفكير لا يعتمد فقط على المعرفة المخزنة في الموديل، بل أيضا على كيفية تنفيذ هذه المعرفة بفعالية خلال مراحل الإنتاج المختلفة. كثير من الطرق الحالية تستخدم أساليب تحكم سلوكية محددة، مما يجعلها غير كافية لمواجهة تحديات متعددة في مختلف أوضاع التفكير.

يقدم نموذج LRS تدريباً يُركز على تعزيز السلوكيات العقلانية من خلال تحسين حالات المخزن القابلة للاستخدام (Sparse Autoencoder - SAE) والتي تحمل هذه السلوكيات بشكل ضمني. بدلاً من الاعتماد على سلوكيات معرفية مسبقة أو توجيهات مستقاة منها، يقوم LRS بتدريب نموذج مكافأة خفي على تتبع عمليات التفكير من خلال جودة الإجابات النهائية، مما يتيح تقدير جودة الحالات الوسطية في الفكر.

أثناء عمليات الاستدلال، توفر تدرجات المكافأة توجيهات تصحيحية خاصة بحالات دقيقة وضعيفة، في حين يعمل بوابة المكافأة والثقة على تقييد التدخل فقط في حالات تم تحديدها كضعيفة من خلال إشارة المكافأة.

أظهرت التجارب المُجراة على عدة نماذج ليفيد وبيانات أداء أن LRS يحسن الأداء بشكل مستمر عند مقارنته بمستويات أساسية مختلفة. بالإضافة إلى ذلك، التحليلات اللاحقة تُظهر أن هذه التقنية تعزز سلوكيات عقلانية جيدة تعالج الأخطاء الأصلية في التفكير.

للمزيد عن تقنية توجيه المكافآت الكامنة، يمكنكم زيارة الكود البرمجي المتاح على الرابط. ما رأيكم في هذا الابتكار؟ شاركونا في التعليقات!