تعتبر عملية التحقق من الحقائق الآلية (Automated Fact-Checking) مهمة أساسية تدعم نظام معلومات مسؤولة وموثوقة. على الرغم من التقدم الملحوظ في الأبحاث مؤخراً من التحقيقات القائمة على النصوص فقط إلى التحقيقات المتعددة الوسائط (Multimodal Fact-Checking)، إلا أنه كان هناك افتراض سائد بأن إدراج الأدلة المرئية (Visual Evidence) يحسن الأداء بشكل عالمي. ولكن، ماذا لو كانت هذه الفرضية خاطئة؟
في هذا العمل، نناقش هذا الافتراض ونظهر أن الاستخدام العشوائي للأدلة متعددة الوسائط يمكن أن يؤدي في الواقع إلى تقليل دقة النتائج. لمواجهة هذا التحدي، نقترح إطار AMuFC، وهو نظام للتحقق من الحقائق متعدد الوسائط يستخدم نموذجين متعاونين من رؤية-لغة (Vision-Language Models) بدورين مختلفين للاستفادة التكيفية من الأدلة المرئية.
يتمثل دور المحلل (Analyzer) في تحديد ما إذا كان من الضروري استخدام الأدلة المرئية للتحقق من الادعاء، بينما يقوم المدقق (Verifier) بتوقع مصداقية الادعاء بناءً على كل من الأدلة المُسترجعة وتقييم المحلل. أظهرت النتائج التجريبية على ثلاثة مجموعات بيانات أن دمج تقييم المحلل لحاجة الأدلة المرئية في توقع المدقق يحقق تحسينات كبيرة في أداء التحقق.
سنعمل على إصدار جميع الأكواد والمجموعات البيانية على [GitHub](https://github.com/ssu-humane/AMuFC). هل ترى أن إدراج الأدلة المرئية ضروري في جميع الحالات؟ شاركونا آراءكم في التعليقات!
هل الصورة تساوي ألف كلمة؟ نقاش حول أهمية التحقيق المتكيف بالوسائط المتعددة مع الأدلة المرئية
يكشف بحث جديد عن تحديات التحقيقات المتعددة الوسائط، موضحاً أن إضافة الأدلة المرئية قد لا تحسن الأداء دائمًا. نقدم إطار AMuFC الذي يستخدم نموذجين متعاونين لتحسين دقة التحقق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
