في عالم الذكاء الاصطناعي، تعتبر نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models - LVLMs) من بين الأدوات الأكثر تفاعلًا، ولكنها تعاني من مشكلة الهلوسة وقدرتها المحدودة على تقديم نتائج موثوقة في التطبيقات الواقعية. يعتمد التقييم الذاتي لهذه النماذج على قدرتها على تقدير دقة نتائجها، ولكن هذه الطريقة ليست مثلى نظرًا لاعتمادها الكبير على الأفكار اللغوية، مما يجعلها غير ملائمة خاصة في تقييم التنبؤات المستندة إلى الرؤية.
لتجاوز هذه القيود، تم تقديم VAUQ، وهو إطار مبتكر لقياس عدم اليقين بشكل يتماشى مع متطلبات نماذج الرؤية واللغة. يركز VAUQ بشكل خاص على قياس مدى اعتماد مخرجات النموذج على الأدلة البصرية المتاحة. يقدم VAUQ ما يسمى بـ "مؤشر المعلومات الصورة" (Image-Information Score - IS)، وهو أداة تلتقط مدى تقليل عدم اليقين التنبؤي الناتج عن المدخلات البصرية.
بالإضافة إلى ذلك، يستخدم هذا الإطار استراتيجية جديدة تُعرف بـ "تغطية المنطقة الأساسية غير المشروطة"، التي تعزز تأثير المناطق البارزة في الصورة. من خلال دمج الاعت entropy التنبؤي مع مؤشر IS المُعدَّل بواسطة المنطقة الأساسية، يُنتج VAUQ دالة تقييم مستقلة عن التدريب تعكس بدقة صحة الإجابات.
تظهر التجارب الشاملة أن VAUQ يتفوق باستمرار على الطرق الحالية للتقييم الذاتي عبر العديد من مجموعات البيانات، مما يجعل منه أداة رئيسية لتحسين موثوقية نشر نماذج الرؤية واللغة في السيناريوهات الحقيقية.
VAUQ: ثورة في تقييم نماذج الرؤية واللغة من خلال قياس عدم اليقين!
تقدم VAUQ إطارًا متطورًا لقياس عدم اليقين في نماذج الرؤية واللغة، مما يعزز دقة التقييم الذاتي. هذا التطور يعد خطوة هامة نحو تحسين موثوقية نشر هذه النماذج في التطبيقات الحقيقية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
