على الرغم من التقدم المذهل الذي حققته نماذج الرؤية واللغة الضخمة (Large Vision-Language Models) في فهم المحتوى البصري والنصي، إلا أنها لا تزال تعاني من ظاهرة غريبة تعرف باسم الهلاوس، حيث تنتج مخرجات لا تستند إلى المدخلات البصرية الحقيقية.
تُعزى الهلاوس في نماذج الرؤية واللغة الضخمة إلى عدة عوامل، أبرزها القيود المفروضة على الهيكل البصري للنموذج أو سيطرة مكون اللغة. ومع ذلك، يبقى تحديد الأهمية النسبية لهذه العوامل أمرًا غير واضح.
لإلقاء الضوء على هذه المسألة، تم اقتراح معيار جديد يسمى HalluScope، الذي يهدف إلى فهم مدى تأثير العوامل المختلفة على ظهور الهلاوس. تشير التحليلات إلى أن الهلاوس تنبع بشكل كبير من الاعتماد المفرط على المعلومات النصية والمعرفة الخلفية، خاصة تلك التي تُدخل من خلال التعليمات النصية.
ولتخفيف آثار الهلاوس الناتجة عن التعليمات النصية، تم اقتراح إطار عمل جديد يُدعى HalluVL-DPO، الذي يركز على تحسين نماذج الرؤية واللغة الضخمة الحالية لتقديم استجابات أكثر ارتباطًا بالواقع البصري. يعتمد هذا النظام على تحسين تفضيلات النموذج باستخدام مجموعة تدريب منظمة، مما يوجه النموذج لتفضيل الاستجابات المستندة إلى الواقع بدلاً من الهلاوس.
أثبتت النماذج المحسّنة فعاليتها في تقليل نوع محدد من الهلاوس، مع الحفاظ على الأداء أو حتى تحسينه في اختبارات الهلاوس الأخرى وتقييمات القدرة البصرية.
لتعزيز التعاون البحثي وإتاحة الموارد للجمهور، يتم الإعداد للإفراج عن معيار التقييم ومجموعة بيانات التدريب البرغية (preference training dataset) والكود على موقع الويب الخاص بالمشروع.
هل تنحرف رؤية الذكاء الاصطناعي؟ اكتشاف الهلاوس الناتجة عن الموجهات في نماذج الرؤية واللغة الضخمة!
رغم التقدم اللافت في نماذج الرؤية واللغة الضخمة، إلا أنها لا تزال تعاني من مشكلة الهلاوس. دراسة جديدة تكشف عن دور الموجهات النصية في تفاقم هذه الظاهرة ونظام جديد يهدف إلى تقليلها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
