اكتشفوا سر رؤية المعاني البصرية: كيف توGuided نماذج اللغة المرئية الكبرى في عملية فك الشيفرة!

Q: ما هو موضوع مقال "اكتشفوا سر رؤية المعاني البصرية: كيف توGuided نماذج اللغة المرئية الكبرى في عملية فك الشيفرة!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "اكتشفوا سر رؤية المعاني البصرية: كيف توGuided نماذج اللغة المرئية الكبرى في عملية فك الشيفرة!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي، نشهد تقدمًا ملحوظًا في تطوير نماذج اللغة المرئية الكبرى (Large Vision Language Models - LVLMs) التي تجمع بين الفهم البصري واللغوي لتحقيق أداء قوي في مهام متعددة. ومع ذلك، تظل الأسئلة حول كيفية مساهمة المعلومات البصرية في عملية فك شيفرات النموذج قائمة، حيث نتج عن ذلك حدوث الهلاوس (hallucinations) بصورة متكررة.

دراسة جديدة قدمت مجموعة من التحليلات للكشف عن كيفية تقديم رموز الرؤية (vision tokens) لمعلومات بصرية ذات مغزى حتى عند حدوث هلاوس. وقد تبين أن دلالاتها مشفرة ضمن الفضاء النصي وتصبح واضحة تحت قيود المفردات المناسبة. وقد قُمنا بتطوير تقنية جديدة تُدعى 'ReVisiT'، وهي طريقة بسيطة ولا تتطلب تدريباً، تهدف الى توجيه توليد النصوص في نماذج LVLMs من خلال الرجوع إلى رموز الرؤية.

تعتمد 'ReVisiT' على المعلومات الدلالية المضمنة داخل رموز الرؤية من خلال إسقاطها في توزيع رموز النص. بشكل خاص، تختار 'ReVisiT' الديناميكية أكثر رموز الرؤية ارتباطًا في كل خطوة من خطوات فك الشيفرة عبر تقليل تباين القيود المعتمدة على السياق. بعد ذلك، تستخدم 'ReVisiT' إسقاطها المقيد لتحسين توزيع المخرجات ليتماشى بشكل أفضل مع الدلالات البصرية. لقد حققت 'ReVisiT' نتائج تنافسية أو متفوقة على النماذج الأخرى في خمسة معايير على نماذج LVLMs الحديثة، مع تقليل التكلفة التشغيلية بمعدل يصل إلى ضعف (2×).

هل تشعرون بالحماس من هذا التطور الجديد في مجال الذكاء الاصطناعي؟ شاركونا آرائكم وتعليقاتكم!

اكتشفوا سر رؤية المعاني البصرية: كيف توGuided نماذج اللغة المرئية الكبرى في عملية فك الشيفرة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

مؤتمر StrictlyVC في سان فرانسيسكو: فرصة ذهبية للالتقاء بقادة الصناعة!

آبل تطور نظارات ذكية مبتكرة: تصميمات جديدة تثير الحماس!

أهلاً بك إلى المستقبل: أنتجت Anthropic Cowork، وكيل الذكاء الاصطناعي الثوري لتحسين إنتاجيتك!