هل الصورة تساوي ألف كلمة؟ نقاش حول أهمية التحقيق المتكيف بالوسائط المتعددة مع الأدلة المرئية

تعتبر عملية التحقق من الحقائق الآلية (Automated Fact-Checking) مهمة أساسية تدعم نظام معلومات مسؤولة وموثوقة. على الرغم من التقدم الملحوظ في الأبحاث مؤخراً من التحقيقات القائمة على النصوص فقط إلى التحقيقات المتعددة الوسائط (Multimodal Fact-Checking)، إلا أنه كان هناك افتراض سائد بأن إدراج الأدلة المرئية (Visual Evidence) يحسن الأداء بشكل عالمي. ولكن، ماذا لو كانت هذه الفرضية خاطئة؟

في هذا العمل، نناقش هذا الافتراض ونظهر أن الاستخدام العشوائي للأدلة متعددة الوسائط يمكن أن يؤدي في الواقع إلى تقليل دقة النتائج. لمواجهة هذا التحدي، نقترح إطار AMuFC، وهو نظام للتحقق من الحقائق متعدد الوسائط يستخدم نموذجين متعاونين من رؤية-لغة (Vision-Language Models) بدورين مختلفين للاستفادة التكيفية من الأدلة المرئية.

يتمثل دور المحلل (Analyzer) في تحديد ما إذا كان من الضروري استخدام الأدلة المرئية للتحقق من الادعاء، بينما يقوم المدقق (Verifier) بتوقع مصداقية الادعاء بناءً على كل من الأدلة المُسترجعة وتقييم المحلل. أظهرت النتائج التجريبية على ثلاثة مجموعات بيانات أن دمج تقييم المحلل لحاجة الأدلة المرئية في توقع المدقق يحقق تحسينات كبيرة في أداء التحقق.

سنعمل على إصدار جميع الأكواد والمجموعات البيانية على [GitHub](https://github.com/ssu-humane/AMuFC). هل ترى أن إدراج الأدلة المرئية ضروري في جميع الحالات؟ شاركونا آراءكم في التعليقات!

هل الصورة تساوي ألف كلمة؟ نقاش حول أهمية التحقيق المتكيف بالوسائط المتعددة مع الأدلة المرئية

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

GraphBit: ابتكار مثير في تنسيق العمل للذكاء الاصطناعي يعيد تعريف التحكم في الوكلاء

استخدام البرمجة المختلطة لتحقيق تحسينات في وجبات الطعام الشخصية: حلول مبتكرة لمشاكل التغذية

إطار ثنائي الأبعاد لتصميم نماذج وكيل الذكاء الاصطناعي: الوظيفة الإدراكية وتخطيط التنفيذ!