في دراسة حديثة نشرت على منصة arXiv، تم الكشف عن ظاهرة مثيرة تحت مسمى "عقدة اللسان السببي" (Causal Tongue-Tie) التي تبرز عدم التوافق بين ما تفهمه نماذج اللغة الكبيرة (LLMs) حول الأسئلة السببية والإجابات التي تقدمها.

وفقًا للنتائج، تم استخدام أداة اختبارات خطية ثابتة لاستخراج الإجابة المدعومة بالأدلة من الحالة الخفية للنموذج، وكانت دقة هذا الاستخراج تصل إلى حوالي 0.97. لكن الغريب أن الإجابات المنطوقة بأسلوب نعم/لا تعود إلى الإجابات الشائعة (commonsense) بدقة تقارب 0.5 فقط.

تُشير هذه الفجوة إلى وجود نمطين مختلفين من الفشل: الأول هو غياب الإشارة الداخلية التي تعكس الفهم الحقيقي، والثاني يتعلق بعدم قدرة واجهة التواصل اللفظية على التعبير عن ذلك الفهم.

ما يثير القلق حقًا هو أن النتائج تدعو للتأمل في المعايير التي تستخدم لتقييم أداء النماذج. فالمعايير المتقنة قد لا تعكس دائمًا الفهم الحقيقي للنموذج، مما يستدعي إعادة النظر في المقاييس الشائعة لتقييم التفكير السببي. يبدو أن الاعتماد فقط على رقم دقة واحد ليس كافيًا لتحديد قدرة نماذج اللغة الكبيرة في التفكير بشكل سببي، مما يتطلب من الباحثين والمهتمين تجديد استراتيجيات التقييم الخاصة بهم.