في الآونة الأخيرة، شهدت نماذج اللغة الكبيرة (Large Language Models) تطوراً ملحوظاً في قدراتها على التفكير والاستنتاج، مما أدي إلى ظهور ما يُعرف بخطوط التفكير المتسلسل (Chain-of-Thought CoT). تعتبر هذه الخطوط خطوات reasoning الوسيطة التي تساعد على توليد الإجابات النهائية، وتهدف لتوجيه استنتاجات النماذج الصغيرة. ولكن، هل نستطيع الوثوق بصحة هذه الخطوط؟

تفيد الدراسات الجديدة بأن العديد من الباحثين يقبلون علماً بأن هذه الخطوط يجب أن تكون صحيحة من الناحية الدلالية وقابلة للتفسير بالنسبة للمستخدمين. لكن الحقيقة تختلف تمامًا. على الرغم من أن الخطوات الوسيطة يُعتقد أنها تُحسن الدقة، فقد أظهرت التجارب أن 28% فقط من الحالات التي احتوت على خطوط تفكير صحيحة، ساهمت في إيجاد الإجابة الصحيحة، في حين أن الخطوط الخاطئة لم تؤد بالضرورة إلى انخفاض ملحوظ في الدقة.

لتحليل تأثير صحة الخطوط وتأثيرها على القدرة على الفهم، قامت الدراسة بتقسيم تجاربها إلى ثلاثة أنواع من الخطوط: خطوط R1، ملخصات الخطوط، والشروحات اللاحقة، وقامت بدراسة مدى توافق قدرات كل نوع مع متطلبات المستخدمين. النتائج كشفت أن أكثر الأنواع تعقيداً – خطوط R1 – تُظهر أفضل أداء من حيث النتائج النهائية، إلا أن المشاركين لم يجدوا فيها سهولة الفهم.

النتائج المتباينة تشير بوضوح إلى الخطر الذي يواجه الباحثين والممارسين في الاعتماد على هذه الأنظمة. يبدو أن هناك حاجة ملحة لإعادة تفكير وتصميم استراتيجيات إشراف النماذج بما يتوافق مع احتياجات المستخدمين الحقيقية، بعيدًا عن الافتراضات التقليدية.