تستمر نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في الارتقاء بإمكاناتها في فهم الصور والنصوص وتوليد الردود الطبيعية، إلا أنها لا تزال تواجه تحديات تتعلق بالثقة والدقة. تكمن المشكلة الرئيسية في قدرتها على إنتاج تنبؤات متضخمة الثقة وإخراجات مشابهة للهلاوس، وخاصةً في وجود أدلة بصرية ضعيفة أو غير متسقة.
في هذا الإطار، تم اقتراح طريقة جديدة تحتوي على تقديم موثوقية في التنبؤات من خلال نظام استنتاج يعتمد على استرجاع الأدلة. يعتمد هذا النظام على إنشاء قاعدة بيانات خارجية للأدلة البصرية باستخدام تمثيلات بصرية تم تدريبها مسبقًا، ويساعد في تحسين موثوقية النتائج من خلال مجموعة من المؤشرات مثل قوة التشابه والاتفاق على دعم الفئات.
تم إجراء اختبارات على مجموعة بيانات ImageNet-100، وأظهرت النتائج أن الإطار الجديد قد رفع دقة التنبؤ المقبول من 85.84% إلى 88.88%، مع تقليص معدل الأخطاء البصرية المقبولة من 14.16% إلى 11.12%. يظهر ذلك قوة دمج الأدلة المسترجعة وتقدير الموثوقية مع بوابة اتخاذ قرارات انتقائية.
هذه التطورات تعزز أهمية الأنظمة متعددة الوسائط وتفتح الأبواب أمام تحسينات مستقبلية أكثر في هذا المجال.
تقليل الهلوسات البصرية في الأنظمة متعددة الوسائط: كيف يمكن لتحسين موثوقية القرار أن يحدث فرقًا كبيرًا!
توصل الباحثون إلى إطار عمل مبتكر لتحسين موثوقية الأنظمة متعددة الوسائط، مما يقلل من الأخطاء الناتجة عن الهلوسة البصرية. النتائج تشير إلى زيادة ملحوظة في دقة التنبؤ وتخفيض نسبة الأخطاء الخاطئة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
