هل تنحرف رؤية الذكاء الاصطناعي؟ اكتشاف الهلاوس الناتجة عن الموجهات في نماذج الرؤية واللغة الضخمة!

Q: ما هو موضوع مقال "هل تنحرف رؤية الذكاء الاصطناعي؟ اكتشاف الهلاوس الناتجة عن الموجهات في نماذج الرؤية واللغة الضخمة!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "هل تنحرف رؤية الذكاء الاصطناعي؟ اكتشاف الهلاوس الناتجة عن الموجهات في نماذج الرؤية واللغة الضخمة!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

على الرغم من التقدم المذهل الذي حققته نماذج الرؤية واللغة الضخمة (Large Vision-Language Models) في فهم المحتوى البصري والنصي، إلا أنها لا تزال تعاني من ظاهرة غريبة تعرف باسم الهلاوس، حيث تنتج مخرجات لا تستند إلى المدخلات البصرية الحقيقية.

تُعزى الهلاوس في نماذج الرؤية واللغة الضخمة إلى عدة عوامل، أبرزها القيود المفروضة على الهيكل البصري للنموذج أو سيطرة مكون اللغة. ومع ذلك، يبقى تحديد الأهمية النسبية لهذه العوامل أمرًا غير واضح.

لإلقاء الضوء على هذه المسألة، تم اقتراح معيار جديد يسمى HalluScope، الذي يهدف إلى فهم مدى تأثير العوامل المختلفة على ظهور الهلاوس. تشير التحليلات إلى أن الهلاوس تنبع بشكل كبير من الاعتماد المفرط على المعلومات النصية والمعرفة الخلفية، خاصة تلك التي تُدخل من خلال التعليمات النصية.

ولتخفيف آثار الهلاوس الناتجة عن التعليمات النصية، تم اقتراح إطار عمل جديد يُدعى HalluVL-DPO، الذي يركز على تحسين نماذج الرؤية واللغة الضخمة الحالية لتقديم استجابات أكثر ارتباطًا بالواقع البصري. يعتمد هذا النظام على تحسين تفضيلات النموذج باستخدام مجموعة تدريب منظمة، مما يوجه النموذج لتفضيل الاستجابات المستندة إلى الواقع بدلاً من الهلاوس.

أثبتت النماذج المحسّنة فعاليتها في تقليل نوع محدد من الهلاوس، مع الحفاظ على الأداء أو حتى تحسينه في اختبارات الهلاوس الأخرى وتقييمات القدرة البصرية.

لتعزيز التعاون البحثي وإتاحة الموارد للجمهور، يتم الإعداد للإفراج عن معيار التقييم ومجموعة بيانات التدريب البرغية (preference training dataset) والكود على موقع الويب الخاص بالمشروع.

هل تنحرف رؤية الذكاء الاصطناعي؟ اكتشاف الهلاوس الناتجة عن الموجهات في نماذج الرؤية واللغة الضخمة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!