في الآونة الأخيرة، شهدت نماذج اللغة الكبيرة (Large Language Models) تطوراً ملحوظاً في قدراتها على التفكير والاستنتاج، مما أدي إلى ظهور ما يُعرف بخطوط التفكير المتسلسل (Chain-of-Thought CoT). تعتبر هذه الخطوط خطوات reasoning الوسيطة التي تساعد على توليد الإجابات النهائية، وتهدف لتوجيه استنتاجات النماذج الصغيرة. ولكن، هل نستطيع الوثوق بصحة هذه الخطوط؟
تفيد الدراسات الجديدة بأن العديد من الباحثين يقبلون علماً بأن هذه الخطوط يجب أن تكون صحيحة من الناحية الدلالية وقابلة للتفسير بالنسبة للمستخدمين. لكن الحقيقة تختلف تمامًا. على الرغم من أن الخطوات الوسيطة يُعتقد أنها تُحسن الدقة، فقد أظهرت التجارب أن 28% فقط من الحالات التي احتوت على خطوط تفكير صحيحة، ساهمت في إيجاد الإجابة الصحيحة، في حين أن الخطوط الخاطئة لم تؤد بالضرورة إلى انخفاض ملحوظ في الدقة.
لتحليل تأثير صحة الخطوط وتأثيرها على القدرة على الفهم، قامت الدراسة بتقسيم تجاربها إلى ثلاثة أنواع من الخطوط: خطوط R1، ملخصات الخطوط، والشروحات اللاحقة، وقامت بدراسة مدى توافق قدرات كل نوع مع متطلبات المستخدمين. النتائج كشفت أن أكثر الأنواع تعقيداً – خطوط R1 – تُظهر أفضل أداء من حيث النتائج النهائية، إلا أن المشاركين لم يجدوا فيها سهولة الفهم.
النتائج المتباينة تشير بوضوح إلى الخطر الذي يواجه الباحثين والممارسين في الاعتماد على هذه الأنظمة. يبدو أن هناك حاجة ملحة لإعادة تفكير وتصميم استراتيجيات إشراف النماذج بما يتوافق مع احتياجات المستخدمين الحقيقية، بعيدًا عن الافتراضات التقليدية.
أثر غير متوقع: كيف تكشف تحليلات خوارزميات الذكاء الاصطناعي عن فجوة المعرفة!
تتسائل الأبحاث الجديدة حول صحة وتفسير تحليلات نماذج اللغة الكبيرة (LLMs)، حيث تظهر أن الكثير منها قد لا يكون دقيقًا أو واضحًا للمستخدمين. النتائج تشير إلى ضرورة إعادة التفكير في كيفية تصميم هذه التحليلات للاستخدام الفعلي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
