في عالم الذكاء الاصطناعي، حيث تتنافس التقنيات لتكون الأفضل في تحليل البيانات متعددة الأنماط، تبرز نماذج الرؤية واللغة (Vision-Language Models - VLMs) كأحد أبرز الابتكارات. ورغم تحقيقها نتائج ممتازة في اختبارات مثل الأداء على المعايير متعددة الأنماط، إلا أنها تواجه تحديات كبيرة في بعض العمليات البصرية الأساسية، وخاصة في تتبع المسارات.

أجرى الباحثون دراسة على ظاهرة تُعرف بتتبع الخطوط، حيث يتعين على النموذج اتباع مسار بصري محدد عبر استمراريات محلية متتالية. ولعزل هذه القدرة، قاموا بتصميم مهام تتبع مُحكمة، تضيف متنافسين قريبين بينما تقلل من الغموض الدلالي والتوبولوجي، مثل التقاطعات والتداخلات.

تبين أن حتى أحدث نماذج VLMs تفقد في كثير من الأحيان المسار المستهدف، وتتحول إلى بدائل قريبة تبدو مشابهة محليًا، مما يعزز الصعوبة في عملية التتبع. تشير التدخلات السلوكية والتحليلات الداخلية إلى أن هذه الإخفاقات تنجم عن المنافسة المحلية، حيث تقوم الممازحات المشابهة بسحب النموذج بعيدًا عن الاستمرارية الحقيقية. ولا تنجح الحلول القياسية في إزالة هذا الاختناق: فالزيادة في حجم النموذج تحقق فقط مكاسب محدودة، والقدرة على التفكير تعوض جزئيًا من خلال استراتيجيات بديلة مكلفة، وتعليمات التتبع الواضحة تفشل في استعادة التتبع الثابت.

علاوة على ذلك، أكدت الاختبارات على مشاهد كابلات معقدة وخرائط مترو ذات تعقيد بصري أكبر أن نفس الفشل في تبديل المسار يستمر خارج الإعدادات المحكومة. هذه النتائج تفتح المجال للأبحاث المستقبلية لفهم كيفية تحسين الأداء والتغلب على التحديات الموجهة في نماذج VLMs.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!