تعتبر نماذج اللغات الضخمة (Large Language Models) من التطورات الرائعة في مجال الذكاء الاصطناعي، حيث تم تصميمها لتعزيز دقة التقديرات وتوفير نتائج موثوقة. لكن، هل تساءلت يومًا عن كيفية تأثير زيادة عمق التفكير (Chain-of-Thought) على هذه النماذج؟ أظهرت دراسة جديدة أن زيادة ميزانية التفكير قد تؤدي إلى نتائج غير متوقعة.

تعد القدرة على التعبير عن عدم اليقين المدروس أحد الفوائد الأساسية لهذه النماذج. ومع ذلك، يشير البحث إلى ظاهرة جديدة تسمى "انحراف المعايرة أثناء التفكير" (Calibration Drift Under Reasoning - CDUR)، حيث يتضح أن زيادة ميزانية التفكير أكثر مما ينبغي قد تؤدي إلى تفاؤل مفرط لدى النماذج. وهذا يعني أنها قد تصف ثقة عالية في إجابات غير صحيحة، مما يثير العديد من التساؤلات حول كيفية تحسين موثوقية هذه الأنظمة.

في الدراسة، تم تعريف ميزانية التفكير (reasoning budget) وتحليل الظروف التي تؤثر على دقة التخمينات. ووجد الباحثون أن دقة التقديرات تبدي نمطًا غير متسق: تنخفض بشكل ملحوظ مع معالجة الأخطاء، ثم ترتفع عندما ينتج التفكير الطويل تفسيرات متسقة داخليًا ولكنها غير صحيحة. تم اقتراح نموذج يسمى "Lock-In" للتفسير، حيث تم تقييم نماذج Llama-3.1-8B وLlama-3.3-70B عبر 47 سؤالًا مما يكشف عن فخاخ تفكير مختلفة.

وبناءً على النتائج، تم تقديم قاعدة توقف مدركة للمعايرة (CABStop) التي توقف التفكير عندما تختلف الثقة عن تقديرات دقة إضافية. يظهر هذا البحث أنه ليس دائمًا أن زيادة عمق التفكير تؤدي إلى المزيد من الموثوقية، بل يتطلب الأمر مراقبة دقيقة لتجنب الوقوع في شبكات الثقة المفرطة.

هذه الاكتشافات تدق ناقوس الخطر في تطوير نماذج الذكاء الاصطناعي، مما يدعو لإعادة التفكير في كيفية تحسين أدائها.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.