في عالم الذكاء الاصطناعي، نشهد تقدمًا ملحوظًا في تطوير نماذج اللغة المرئية الكبرى (Large Vision Language Models - LVLMs) التي تجمع بين الفهم البصري واللغوي لتحقيق أداء قوي في مهام متعددة. ومع ذلك، تظل الأسئلة حول كيفية مساهمة المعلومات البصرية في عملية فك شيفرات النموذج قائمة، حيث نتج عن ذلك حدوث الهلاوس (hallucinations) بصورة متكررة.

دراسة جديدة قدمت مجموعة من التحليلات للكشف عن كيفية تقديم رموز الرؤية (vision tokens) لمعلومات بصرية ذات مغزى حتى عند حدوث هلاوس. وقد تبين أن دلالاتها مشفرة ضمن الفضاء النصي وتصبح واضحة تحت قيود المفردات المناسبة. وقد قُمنا بتطوير تقنية جديدة تُدعى 'ReVisiT'، وهي طريقة بسيطة ولا تتطلب تدريباً، تهدف الى توجيه توليد النصوص في نماذج LVLMs من خلال الرجوع إلى رموز الرؤية.

تعتمد 'ReVisiT' على المعلومات الدلالية المضمنة داخل رموز الرؤية من خلال إسقاطها في توزيع رموز النص. بشكل خاص، تختار 'ReVisiT' الديناميكية أكثر رموز الرؤية ارتباطًا في كل خطوة من خطوات فك الشيفرة عبر تقليل تباين القيود المعتمدة على السياق. بعد ذلك، تستخدم 'ReVisiT' إسقاطها المقيد لتحسين توزيع المخرجات ليتماشى بشكل أفضل مع الدلالات البصرية. لقد حققت 'ReVisiT' نتائج تنافسية أو متفوقة على النماذج الأخرى في خمسة معايير على نماذج LVLMs الحديثة، مع تقليل التكلفة التشغيلية بمعدل يصل إلى ضعف (2×).

هل تشعرون بالحماس من هذا التطور الجديد في مجال الذكاء الاصطناعي؟ شاركونا آرائكم وتعليقاتكم!