في خطوة مثيرة في مجال الذكاء الاصطناعي، تعرض نماذج الرؤية اللغوية (Vision-Language Models) لاختبارات جديدة تُعرف باسم KnotBench. هذا الاختبار يعتمد على مجموعة ضخمة تضم 858,318 صورة من 1,951 نموذجاً من العقود المعقدة، ويهدف إلى تقييم قدرة هذه النماذج على التعرف على الهياكل وتحليلها.

تتضمن المهام الــ14 التي يشملها الاختبار مجالات متعددة مثل الحكم على المساواة (Equivalence Judgment) وتوقع الحركات (Move Prediction) والتعرف (Identification) والتأسيس عبر الأشكال المختلفة (Cross-Modal Grounding). النتائج تشير إلى وجود فجوة ملحوظة بين القدرة على الإدراك (Perception) والعمليات (Operation)، حيث تُظهر النماذج صعوبة في التحويل من الصور إلى الرموز بدقة.

لا تتوقف التجربة عند تقيم دقة الردود، بل تمت مقارنة أداء نماذج مثل Claude Opus 4.7 وGPT-5، مع وبدون تفكير، ضمن معايير محددة. على مدى 56 حالة مختلفة، كانت النتائج غير مبهجة، حيث أظهرت 15 نتيجة أقل أو تساوي مستوى عشوائي. كما لم تتمكن أي من النماذج من إنتاج سلسلة صحيحة بدقة عند تحويل الرسوم البيانية إلى رموز.

تعكس هذه النتائج المتعمقة أن رغم قوة نماذج الرؤية اللغوية، إلا أنها تجسد سمات الرسم ولكن تفتقر للأدوات اللازمة لمحاكاة الحركات عليها بشكل فعّال. هل ستتمكن هذه النماذج في المستقبل من سد هذه الفجوة وتحقيق فهم أعمق لمهام التعقيد؟