تُعد تقنيات التفكير المتسلسل (Chain-of-thought - CoT) واحدة من الاستخدامات الشائعة في وكالات النماذج اللغوية (Language Model Agents)، إلا أن الأبحاث الأخيرة تُظهر أن هذه التقنية ليست بالضرورة موثوقة دائماً. إذ قد تعكس النتائج المستخلصة من CoT التفكير بعد اتخاذ القرار بدلاً من أن تكون ناتجة عن عملية تفكير حقيقية مسبقة.

في ظل هذه الخلفية، يطرح العلماء تساؤلاً جوهرياً: ماذا يُحسن فعلياً تدريب CoT؟ هل يُعين النموذج على تحسين تغييره للأفعال وقراراته بناءً على التفكير المُنتَج، أم أن تحسينه ينحصر في قدرته على التنبؤ بالأفعال مباشرةً من التنبيهات؟

لإجابة هذا السؤال، تم القيام بمقارنة بين "الأفعال المعتمدة على التنبيه" (Prompt Actions) التي تنبأت بالأفعال دون استخدام تقنية CoT، و"أفعال CoT" التي اعتمدت على هذه التقنية. النتائج أظهرت تحسناً ملحوظاً في جودة الأفعال المعتمدة على التنبيه عبر العديد من مراحل التدريب. ومع ذلك، عند التفاعل مع البيئة، ظل التفوق النسبي لأفعال CoT مقابل الأفعال المعتمدة على التنبيه كما هو ولم يظهر أي ميزة واضحة، مما يعكس عدم قدرة تدريب CoT على توسيع هذه الفجوة.

علاوة على ذلك، تم العثور على أن النماذج في المراحل المتقدمة كانت أقل عرضة لتعديل الأفعال استجابةً لتقنية CoT، مما يشير إلى اعتماد أكبر على التنبيهات المباشرة. بناءً على هذه الأنماط، قام الباحثون بتطبيق تقنيات معينة لتقليل إشراف الأفعال على جزء من عينات التدريب، الأمر الذي ساعد في تحسين التعميم خارج النطاق.

هل تعتقد أن تقنيات التفكير المتسلسل تحتاج إلى إعادة تقييم في العالم الذكاء الاصطناعي؟ ما رأيكم في نتائج هذه الدراسة؟ شاركونا في التعليقات!