[تواصل](/tag/تواصل) [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) (Large [Vision-Language Models](/tag/vision-language-models) - LVLMs) إثارة إعجاب [الباحثين](/tag/الباحثين) بتقديم [أداء](/tag/أداء) متميز في العديد من المهام المتعلقة بالرؤية واللغة. إلا أن [تحدي](/tag/تحدي) [الهلاوس](/tag/الهلاوس) لا يزال يؤرق مطوري هذه الأنظمة، حيث تنتج استجابات قد تكون غير متناسقة مع المحتوى البصري المعروض.
في [دراسة](/tag/دراسة) حديثة، اتضح أن هذه [النماذج](/tag/النماذج) غالبًا ما تتجاهل [الأدلة](/tag/الأدلة) البصرية الصحيحة أو تنسى النظر إليها عندما تستمر في عملية [التوليد](/tag/التوليد). وقد أظهرت [الأبحاث](/tag/الأبحاث) أن [نماذج](/tag/نماذج) (LVLMs) تتأثر فعليًا بما يحدث في الطبقات المختلفة، حيث يتبين وجود تباين ملحوظ بين طبقات [الانتباه](/tag/الانتباه) عند التعامل مع [الأدلة](/tag/الأدلة) البصرية.
استنادًا إلى هذه الملاحظات، تم [اقتراح](/tag/اقتراح) طريقة مبتكرة للحد من [الهلاوس](/tag/الهلاوس) تعتمد على [تحليل](/tag/تحليل) الفروقات بين [انتباه](/tag/انتباه) الطبقات (Inter-Layer Visual [Attention](/tag/attention) Discrepancy - ILVAD). تتضمن هذه الطريقة [توجيه](/tag/توجيه) [انتباه](/tag/انتباه) النموذج للأدلة البصرية خلال عملية [التوليد](/tag/التوليد) من خلال إنشاء خريطة للطريقة النشطة (saliency map) لتحديد العناصر المهمة.
بفضل هذه الخريطة، يمكن [تعزيز الانتباه](/tag/تعزيز-[الانتباه](/tag/الانتباه)) للأدلة البصرية خلال عملية [التوليد](/tag/التوليد) وتقليل [احتمالية](/tag/احتمالية) النسيان. إضافةً إلى ذلك، تستخدم الطريقة هذه الخريطة للحصول على درجات [الانتباه](/tag/الانتباه) للنصوص المولدة مقارنة بالأدلة البصرية، مما يسهم في اختيار النصوص الأكثر توافقًا مع المحتوى المرئي. هذه الطريقة لا تحتاج إلى [تدريب مسبق](/tag/[تدريب](/tag/تدريب)-مسبق) وتعتبر سهلة التنفيذ.
أظهرت [التقييمات](/tag/التقييمات) المتعددة على خمسة [نماذج](/tag/نماذج) مؤخرًا [تطوير](/tag/تطوير) [أداء](/tag/أداء) هذه [النماذج](/tag/النماذج) ونجاحها في تقليل [الهلاوس](/tag/الهلاوس) عند تطبيق [التقنية](/tag/التقنية) الجديدة. يمكنك الاطلاع على الشيفرة المصدرية لهذا [البحث](/tag/البحث) من خلال الرابط: [GitHub](https://github.com/ytx-ML/ILVAD).
ما رأيكم في هذه [التقنية](/tag/التقنية) الجديدة؟ هل تعتقدون أنها ستحدث ثورة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
اكتشاف الأدلة البصرية الصحيحة دون نسيان: تقنيات جديدة للحد من الهلاوس في نماذج الرؤية واللغة
تمكن الباحثون من تقليل الهلاوس في نماذج الرؤية واللغة (LVLMs) عن طريق تعزيز الانتباه للأدلة البصرية الصحيحة. الطريقة الجديدة تعتمد على تحليل الفروقات بين الطبقات لتحسين الدقة أثناء عملية التوليد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
