في خطوة مثيرة في مجال الذكاء الاصطناعي، تعرض نماذج الرؤية اللغوية (Vision-Language Models) لاختبارات جديدة تُعرف باسم KnotBench. هذا الاختبار يعتمد على مجموعة ضخمة تضم 858,318 صورة من 1,951 نموذجاً من العقود المعقدة، ويهدف إلى تقييم قدرة هذه النماذج على التعرف على الهياكل وتحليلها.
تتضمن المهام الــ14 التي يشملها الاختبار مجالات متعددة مثل الحكم على المساواة (Equivalence Judgment) وتوقع الحركات (Move Prediction) والتعرف (Identification) والتأسيس عبر الأشكال المختلفة (Cross-Modal Grounding). النتائج تشير إلى وجود فجوة ملحوظة بين القدرة على الإدراك (Perception) والعمليات (Operation)، حيث تُظهر النماذج صعوبة في التحويل من الصور إلى الرموز بدقة.
لا تتوقف التجربة عند تقيم دقة الردود، بل تمت مقارنة أداء نماذج مثل Claude Opus 4.7 وGPT-5، مع وبدون تفكير، ضمن معايير محددة. على مدى 56 حالة مختلفة، كانت النتائج غير مبهجة، حيث أظهرت 15 نتيجة أقل أو تساوي مستوى عشوائي. كما لم تتمكن أي من النماذج من إنتاج سلسلة صحيحة بدقة عند تحويل الرسوم البيانية إلى رموز.
تعكس هذه النتائج المتعمقة أن رغم قوة نماذج الرؤية اللغوية، إلا أنها تجسد سمات الرسم ولكن تفتقر للأدوات اللازمة لمحاكاة الحركات عليها بشكل فعّال. هل ستتمكن هذه النماذج في المستقبل من سد هذه الفجوة وتحقيق فهم أعمق لمهام التعقيد؟
فك رموز الغموض: نماذج الرؤية اللغوية تواجه تحديات الرسوم البيانية للعقد
تقدم دراسة جديدة تحدياً مثيراً لنماذج الرؤية اللغوية من خلال اختبارها على رسومات عقد معقدة. هذه النماذج تواجه صعوبة في التحليل وعمليات الفهم العميق، مما يسلط الضوء على فجوة في قدراتها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
