في عالم الذكاء الاصطناعي، يُعتبر استخراج الهياكل السببية وتطبيقها في مواقف جديدة من العلامات المميزة للذكاء البشري. أداء نماذج اللغات الضخمة (Large Language Models) ونماذج رؤية اللغة (Vision Language Models) قد برز في العديد من مهام الاستدلال. ولكن، تبقى تساؤلات حول قدرتها على التعلم السببي التفاعلي – أي القدرة على استكشاف الهياكل الكامنة من خلال التجارب المتتالية ونقلها عبر سياقات مختلفة.

في الدراسة الجديدة، تم استخدام نموذج يُعرف باسم OpenLock يتطلب اكتشاف التراكيب الشائعة للسبب والنتيجة (Common Cause وCommon Effect)، ليتبين أن النماذج تعاني من تأخير ملحوظ أو غياب في عملية النقل، حيث يتطلب الأمر منها رسم خرائط بيئية محددة قبل أن تُظهر أي تحسين. وفي الوقت الذي يستطيع فيه المتعلمون البشر استغلال المعرفة الهيكلية السابقة من المحاولة الأولى، فشلت نماذج الذكاء الاصطناعي في تحقيق هذه الأسبقية.

عند تقييم النماذج في الوضع النصي فقط، كانت كفاءة الاكتشاف متطابقة أو حتى تفوق تلك التي لدى البشر. لكن، المعلومات المرئية – سواء في الشرط المعتمد على الصورة فقط أو في الشرط المزج بين النص والصورة – أدت إلى تدهور الأداء بدلاً من تحسينه، مما يُظهر اعتمادًا واسع النطاق على المعالجة الرمزية بدلاً من الاستدلال المتعدد الوسائط.

كما تصرفت النماذج بنمط غير متوازن في التراكيب الشائعة للسبب والنتيجة، مما يشير إلى وجود انحيازات تجريبية بدلًا من تجريدات سببية محايدة. تعكس هذه النتائج أن التعلم الإحصائي على نطاق واسع لا يُنتج المخططات السببية غير المرتبطة بالسياق التي تكمن وراء الاستدلال التمثيلي البشري، مما يوضح أن عملية النقل تعتمد على التأسيس البيئي مما يُعد قيدًا أساسياً لنماذج اللغات الضخمة ونماذج رؤية اللغة الحالية.