في عالم الحيوان، قدرة التعرف على الذات من خلال الانعكاس في المرآة تُعتبر مقياسًا أساسيًا للقدرات العقلية العليا، حيث تظهر هذه القدرة في بعض الأنواع فقط. ولكن، ماذا عن نماذج اللغة المرئية (VLM)؟ هل تستطيع هذه النماذج أن تعترف بذاتها عندما ترى انعكاسها في المرآة؟

في أحدث الأبحاث، تم تقديم معيار ثلاثي الأبعاد جديد، حيث يجب على نموذج VLM الذي يعمل من منظور الشخص الأول استنتاج خاصية جسدية مخفية من انعكاسه واختيار الهدف المطابق، مع تجنب خلط الذات بالآخرين.

لفصل الهوية الذاتية المتأتية من المرآة عن التحولات الطفيفة، تم اختبار إزالة المرآة، الإشارات المضللة، والانعاكاسات المحجوبة. كما تم تقييم عملية اتخاذ القرار من خلال البحث عن المرآة، ترتيب الزمن، النسبة الذاتية، واتساق التفكير والعمل.

أظهرت التجارب أن التعرف على الذات المعتمد على المرآة يظهر بشكل رئيسي في النماذج الأقوى، حيث يمكن لتلك النماذج استخدام المعلومات المنعكسة لاتخاذ الإجراءات المناسبة. بينما غالبًا ما تقوم النماذج الأضعف بفحص المرآة، لكنها تفشل في استخلاص المعلومات المتعلقة بالنفس أو تختلط عليها الأمور.

وعلاوة على ذلك، أظهر تعارض اللغة والرؤية أن اللغة الذاتية فقط لا تكفي لتكون دليلًا على التعرف الجذري على الذات.

بشكل عام، توفر هذه التقييمات المعتمدة على المرآة أداة تشخيصية لتحديد ما إذا كانت الهوية الذاتية المبنية على التجسيد مرتبطة بالتجارب الحسية والعمل بدلاً من التقديرات الأولية أو الامتثال للطلبات أو الوهم.