في عالم الذكاء الاصطناعي المتطور، تطرح الأسئلة حول قدرة نماذج اللغات الضخمة (LLMs) على فهم حالتها الداخلية، أي ما يعرف بالاستبطان (introspection). جرت دراسات عديدة تشير إلى أن هذه النماذج تستطيع التعرف والإبلاغ عن حالاتها الداخلية، لكن هل هذا صحيح بالضرورة؟

وفقًا لتقييمات ومعايير جديدة، هناك دعوات ملحة لإعادة النظر في هذه الفرضيات. يتضح أن علينا التفرقة بين الاستبطان الحقيقي والأنماط العقلية القائمة على مظاهر سطحية. إذ تشير الأبحاث إلى أن الأدلة السلوكية وحدها غير كافية لإثبات ادعاءات استبطانية قوية.

تعود الأبحاث لتفحص نماذج تقييم جديدة تم تقديمها مؤخرًا. في واحدة من هذه الآليات، طُلب من النماذج اكتشاف ما إذا كانت حالاتهم الداخلية قد تعرضت للتلاعب. وللأسف، تبين أن هذه النماذج غير قادرة على التمييز بشكل موثوق بين التلاعب في حالاتهم الداخلية والتغيرات الطفيفة في المدخلات. وهذا يعني أن نجاحها في الدراسات الأصلية قد يعكس قدرتها على تحديد الأخطاء بشكل عام، دون القدرة الحقيقية على مراقبة حالاتهم الداخلية.

في تجربة أخرى، تم تكليف النماذج بتوقع تسميات مستمدة من حالاتهم الخفية. ومع ذلك، أظهرت نتائج هذه التجربة أن المقاييس التي تصل فقط إلى المدخلات تحقق أداءً معادلاً لأداء النماذج نفسها في التوقعات، مما يشير إلى أن النتائج الأصلية لا تدل على الوصول المميز للنموذج إلى تمثيلاته الداخلية.

بالإضافة إلى ذلك، تم تقديم إعداد جديد، حيث لا يمكن للنماذج الاعتماد على معاني المهام لحلها، بل يجب عليها الاعتماد على التمثيل الداخلي. هنا، أظهرت النماذج أداءً أقرب إلى الصدفة على هذه النسخة المدروسة بشكل أفضل من المهمة.

باختصار، تشير هذه النتائج إلى أن الأدلة الحالية غير كافية لتأكيد أن نماذج اللغات الضخمة تمتلك مراقبة ميتا المعرفية. فهل تعتقد أن هذه النماذج ستصل يومًا إلى فهم ذاتها؟ شاركونا آرائكم في التعليقات!