تشهد الدراسات المتعلقة بتآكل سلسلة التفكير (Chain-of-Thought Corruption) اهتمامًا متزايدًا في المجتمع الأكاديمي، حيث تُعتبر هذه الدراسات أداة رئيسية لتقييم دقة النماذج اللغوية. قد تكون كافة التفاصيل المهمة، ولكن يبدو أن هناك عاملاً مهمًا يتم تجاهله: التنسيق الذي تتبناه الإجابات.

في دراستهم الجديدة، يناقش الباحثون كيف يؤثر تنسيق الأجوبة بشكل غير متوقع على دقة نتائج النماذج اللغوية. وقد توصلوا إلى اكتشاف مثير؛ فعندما تتضمن السلاسل عبارات إجابات نهائية واضحة، تتعرض نتائج دقة النموذج للتشويه، حيث يتفاعل النموذج بشكل أكبر مع موقع النص الإجابي بدلاً من التركيز على عملية الحساب نفسها.

تنفيذ تجربة لـ GSM8K، كشف عن أن إزالة عبارة الإجابة النهائية، مع الحفاظ على كل خطوات التفكير، يؤدي إلى انهيار في حساسية النموذج بشكل مثير (~19 مضاعف) مع إضافة نماذج بمقياس 3B، مما يدعم الفرضية بأن موقع الإجابة هو جزء أساسي من آلية الصياغة.

تعيش أنظمة الذكاء الاصطناعي فترة تحول، وتظهر هذه الدراسات لنا كيف أن تنسيق المعلومات له تأثير عميق يمتد حتى النماذج التي تصل إلى 32B من حيث العمق الحسابي. ولذا، يقترح الباحثون مجموعة متطلبات أساسية (تحكم تكويني، تحديد تنسيق، ومسح شامل في جميع المواقع) كمعيار أدنى للدراسات التي تستند إلى التآكل.

هل توافقون على أن تنسيق النصوص لديه تأثير كبير على كيفية فهم النماذج اللغوية للتفكير؟ شاركونا آرائكم في التعليقات.