[تواصل](/tag/تواصل) [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) (Large [Vision-Language Models](/tag/vision-language-models) - LVLMs) إثارة إعجاب [الباحثين](/tag/الباحثين) بتقديم [أداء](/tag/أداء) متميز في العديد من المهام المتعلقة بالرؤية واللغة. إلا أن [تحدي](/tag/تحدي) [الهلاوس](/tag/الهلاوس) لا يزال يؤرق مطوري هذه الأنظمة، حيث تنتج استجابات قد تكون غير متناسقة مع المحتوى البصري المعروض.

في [دراسة](/tag/دراسة) حديثة، اتضح أن هذه [النماذج](/tag/النماذج) غالبًا ما تتجاهل [الأدلة](/tag/الأدلة) البصرية الصحيحة أو تنسى النظر إليها عندما تستمر في عملية [التوليد](/tag/التوليد). وقد أظهرت [الأبحاث](/tag/الأبحاث) أن [نماذج](/tag/نماذج) (LVLMs) تتأثر فعليًا بما يحدث في الطبقات المختلفة، حيث يتبين وجود تباين ملحوظ بين طبقات [الانتباه](/tag/الانتباه) عند التعامل مع [الأدلة](/tag/الأدلة) البصرية.

استنادًا إلى هذه الملاحظات، تم [اقتراح](/tag/اقتراح) طريقة مبتكرة للحد من [الهلاوس](/tag/الهلاوس) تعتمد على [تحليل](/tag/تحليل) الفروقات بين [انتباه](/tag/انتباه) الطبقات (Inter-Layer Visual [Attention](/tag/attention) Discrepancy - ILVAD). تتضمن هذه الطريقة [توجيه](/tag/توجيه) [انتباه](/tag/انتباه) النموذج للأدلة البصرية خلال عملية [التوليد](/tag/التوليد) من خلال إنشاء خريطة للطريقة النشطة (saliency map) لتحديد العناصر المهمة.

بفضل هذه الخريطة، يمكن [تعزيز الانتباه](/tag/تعزيز-[الانتباه](/tag/الانتباه)) للأدلة البصرية خلال عملية [التوليد](/tag/التوليد) وتقليل [احتمالية](/tag/احتمالية) النسيان. إضافةً إلى ذلك، تستخدم الطريقة هذه الخريطة للحصول على درجات [الانتباه](/tag/الانتباه) للنصوص المولدة مقارنة بالأدلة البصرية، مما يسهم في اختيار النصوص الأكثر توافقًا مع المحتوى المرئي. هذه الطريقة لا تحتاج إلى [تدريب مسبق](/tag/[تدريب](/tag/تدريب)-مسبق) وتعتبر سهلة التنفيذ.

أظهرت [التقييمات](/tag/التقييمات) المتعددة على خمسة [نماذج](/tag/نماذج) مؤخرًا [تطوير](/tag/تطوير) [أداء](/tag/أداء) هذه [النماذج](/tag/النماذج) ونجاحها في تقليل [الهلاوس](/tag/الهلاوس) عند تطبيق [التقنية](/tag/التقنية) الجديدة. يمكنك الاطلاع على الشيفرة المصدرية لهذا [البحث](/tag/البحث) من خلال الرابط: [GitHub](https://github.com/ytx-ML/ILVAD).

ما رأيكم في هذه [التقنية](/tag/التقنية) الجديدة؟ هل تعتقدون أنها ستحدث ثورة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!