في عالم الذكاء الاصطناعي، تشير النماذج الكبيرة المخصصة للاستدلال (Large Reasoning Models) إلى نظام متطور يمكنه حل المشكلات المعقدة من خلال توليد سلاسل استدلال مطولة. وقد حصلت هذه النماذج على اهتمام متزايد بفضل قدرتها على معالجة التحديات الحسابية الدقيقة. ولكن ماذا عن الأبعاد الخفية وراء عملية الاستدلال؟

في دراسة جديدة، يركز العلماء على جانبيين مهمين إلا أنهما لم يحصلوا على ما يكفي من الاستكشاف: انتقالات الاستدلال التي تُظهر كيفية انتقال النموذج بين خطوات التفكير، ومرشحات الإجابات التي تعكس تنوع مسارات الحلول التي يمكن أن يقترحها النموذج. يشير الباحثون إلى هذين الجانبين على أنهما تمثلان أنماط التفكير (Thinking Schemata).

الأشياء التي اكتشفها الباحثون مثيرة للدهشة؛ فقد لوحظ وجود ارتباط قوي بين تنوع أنماط التفكير وأداء النماذج. وهذا يدفعهم إلى اقتراح استراتيجية جديدة تُعرف بـ DiScO (Diverse Schemata Policy Optimization)، وهي إطار عمل يهدف إلى تعزيز وعي النموذج بأنماط التفكير، ثم تشجيع التنوع من خلال التعلم المعزز (Reinforcement Learning)، وتعزيز الاستدلال المتنوع خلال وقت الاستدلال.

أظهرت التجارب التي أُجريت على عدة معايير لاستدلال الرياضيات أن هذا الأسلوب الجديد يتفوق على التقنيات التقليدية. وبالإضافة إلى النتائج الدقيقة، أظهرت التحليلات التي قام بها البشر أن DiScO قد عزز بشكل كبير قدرة النموذج على التعافي من المحاولات الخاطئة.

بناءً على هذه النتائج، تبرز أهمية تنوع أنماط التفكير كأساس للتقدم في مجال الذكاء الاصطناعي، مما يشير إلى أن توسيع هذا التنوع قد يمثل اتجاهًا واعدًا للبحث.