في عالم الذكاء الاصطناعي، أصبح من الضروري تحسين أداء نماذج اللغات المرئية (Video-LLMs) التي تعاني من ظاهرة الهلوسة. هذه المشكلة تتجلى في إنتاج محتوى يبدو معقولًا ولكنه غير مستند إلى أدلة بصرية واضحة. على الرغم من وجود طرق حالية مثل فك التشفير التبايني (Contrastive Decoding)، إلا أن هذه الطرق تعتمد على الاضطرابات العشوائية التي غالباً ما تفشل في استهداف الدلائل البصرية التي تسبب الهلوسة.

هنا تأتي تقنية MACD، أو نموذج التصحيح التبايني المدعوم بخيال مضاد (Model-Aware Counterfactual Data based Contrastive Decoding)، وهي استراتيجية جديدة تعتمد على ذكاء النموذج نفسه لتقييم أدلة المحتوى. تستخدم MACD ملاحظات النموذج لتحديد المناطق البصرية التي تسهم في الهلوسة، مما ينتج إدخالات مضادة موجهة تتمحور حول العناصر بدلاً من التعديلات العشوائية على الإطارات أو الزمن.

تمت تجربة هذه الطريقة في عدة اختبارات، مثل EventHallusion وMVBench، وأظهرت نتائج مثيرة للإعجاب في تقليل حالات الهلوسة مع تحسين دقة المهام عبر مجموعة متنوعة من نماذج اللغات المرئية، بما في ذلك Qwen وInternVL. كانت النتائج أكثر ملحوظية في السيناريوهات التي تتضمن أجسامًا صغيرة أو مخفية أو تتواجد معًا، مما يبرز فعالية MACD في التعامل مع التحديات المعقدة.

ومع تقدم البحوث في هذا المجال، يبدو أن تقنية MACD ستساهم بشكل كبير في إحداث تغييرات جذرية في كيفية تعامل نماذج الذكاء الاصطناعي مع المحتوى المرئي، مما يمهد الطريق لنماذج أكثر دقة وموثوقية في المستقبل. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.