في ظل التقدم المتسارع في مجالات الذكاء الاصطناعي، قدم الباحثون تقنية جديدة تحمل اسم "جيز في إل إم" (GazeVLM)، التي تفتح آفاقًا جديدة للرؤية متعددة الوسائط (Multimodal Reasoning). تعتمد هذه التقنية على مفهوم "الرؤية النشطة" (Active Vision) التي تديرها عمليات التحكم الذاتي، حيث تتيح للمستخدم توجيه انتباهه بشكل ديناميكي نحو التفاصيل المهمة في المشهد.

عادةً ما تعتمد نماذج الرؤية اللغوية الحديثة (Vision-Language Models - VLMs) على معالجة المعلومات البصرية بشكل سلبي، مما يؤدي إلى فقدان الدقة في التفكير المكاني وإحداث هلاوس لغوية. ولكن مع GazeVLM، يتمكن النموذج من دمج التحكم المعرفي في آلية نشر الموارد الانتباهية مباشرة في حلقة التفكير.

تتمثل إحدى الابتكارات الرئيسة في GazeVLM في قدرة النموذج على إنشاء رموز نظر (Gaze Tokens) بشكل مستقل، مما يساعده على تحديد نوايا الانتباه بدقة. هذا يُمكِّن النموذج من تنفيذ انتقاء انتباهي مكاني، مما يقلل من تأثير الخصائص البصرية غير ذات الصلة. بعد الانتهاء من عملية التفكير المحلية، يمكنه استعادة الرؤية العامة بشكل سلس.

من خلال تدريب النموذج باستخدام خوارزمية مصممة خصيصًا تُعرف بـ Group Relative Policy Optimization (GRPO)، التي تمنح مكافآت على الأسس الصحيحة، أظهر GazeVLM أداءً قويًا في التفكير متعدد الوسائط بفارق يصل إلى 4% عن النماذج الحالية في فئته، وأكثر من 5% على أنظمة متقدمة تعتمد على التفكير مع الصور وفقًا لمعايير HRBench-4k وHRBench-8k.

ستُعتبر تقنية GazeVLM بلا شك خطوة ثورية في كيفية تعامل الذكاء الاصطناعي مع المعلومات البصرية واللغوية، مما يساعد في تحسين الفهم والتفاعل بين البشر والآلات.

ما رأيكم في هذه التطورات؟ شاركونا آرائكم في التعليقات!