VAUQ: ثورة في تقييم نماذج الرؤية واللغة من خلال قياس عدم اليقين!

في عالم الذكاء الاصطناعي، تعتبر نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models - LVLMs) من بين الأدوات الأكثر تفاعلًا، ولكنها تعاني من مشكلة الهلوسة وقدرتها المحدودة على تقديم نتائج موثوقة في التطبيقات الواقعية. يعتمد التقييم الذاتي لهذه النماذج على قدرتها على تقدير دقة نتائجها، ولكن هذه الطريقة ليست مثلى نظرًا لاعتمادها الكبير على الأفكار اللغوية، مما يجعلها غير ملائمة خاصة في تقييم التنبؤات المستندة إلى الرؤية.

لتجاوز هذه القيود، تم تقديم VAUQ، وهو إطار مبتكر لقياس عدم اليقين بشكل يتماشى مع متطلبات نماذج الرؤية واللغة. يركز VAUQ بشكل خاص على قياس مدى اعتماد مخرجات النموذج على الأدلة البصرية المتاحة. يقدم VAUQ ما يسمى بـ "مؤشر المعلومات الصورة" (Image-Information Score - IS)، وهو أداة تلتقط مدى تقليل عدم اليقين التنبؤي الناتج عن المدخلات البصرية.

بالإضافة إلى ذلك، يستخدم هذا الإطار استراتيجية جديدة تُعرف بـ "تغطية المنطقة الأساسية غير المشروطة"، التي تعزز تأثير المناطق البارزة في الصورة. من خلال دمج الاعت entropy التنبؤي مع مؤشر IS المُعدَّل بواسطة المنطقة الأساسية، يُنتج VAUQ دالة تقييم مستقلة عن التدريب تعكس بدقة صحة الإجابات.

تظهر التجارب الشاملة أن VAUQ يتفوق باستمرار على الطرق الحالية للتقييم الذاتي عبر العديد من مجموعات البيانات، مما يجعل منه أداة رئيسية لتحسين موثوقية نشر نماذج الرؤية واللغة في السيناريوهات الحقيقية.

VAUQ: ثورة في تقييم نماذج الرؤية واللغة من خلال قياس عدم اليقين!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

الذكاء الاصطناعي: دليلك الشامل لفهم المصطلحات الجديدة والمتقدمة!

تحديات تطوير تطبيق بريد إلكتروني يدهش الجميع!

ثورة الذكاء الاصطناعي: OpenAI تطلق إضافة كروم جديدة لوكيل Codex تسهل التفاعل مع أشهر المنصات!