في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة الضخمة السمعية-البصرية (Audio-Visual Large Language Models) من أبرز تقنيات المستقبل، لكن ماذا يحدث عندما تبدأ هذه النماذج في إنتاج نتائج تبدو منطقية لكنها في الواقع غير صحيحة؟ هذه الظاهرة تعرف بالهلوسة (Hallucination).
بينما ركزت الاختبارات السابقة على الأصوات البيئية مثل نباح الكلاب لقياس حدوث الأحداث، فإن الكلام البشري يحمل دلالات غنية وهياكل زمنية معقدة، مما يحتم ضرورة دراسة ما إذا كانت هذه النماذج يمكنها بشكل دقيق محاذاة محتوى الكلام مع الإشارات البصرية المقابلة.
في هذه الدراسة الجديدة، قدم الباحثون SVHalluc، وهو الأول من نوعه كمعيار شامل لتقييم هلوسة الكلام والرؤية في نماذج اللغة الضخمة السمعية-البصرية. تركز SVHalluc على تقييم كيف يمكن لمحتوى الكلام أن يؤثر على دقة النماذج في محاذاة الرسائل الصوتية مع المشاهد البصرية.
أظهرت النتائج التجريبية أن النموذج المتقدم Gemini 2.5 Pro يتفوق بشكل ملحوظ على النماذج مفتوحة المصدر، حيث عانت الأخيرة من دقة شبه عشوائية في المهام المختلفة. توضح التحليلات أن العيوب في أداء النماذج تعود إلى قدرتها المحدودة على الفهم عبر الأنماط، رغم أدائها القوي في الإدراك الأحادي.
تكشف هذه الدراسة الجديدة عن قيود أساسية في النماذج الحالية وتبرز الحاجة الملحة لفهم الفيديو المستند إلى الكلام. سيثير هذا البحث تساؤلات جديدة حول كيفية تحسين نماذج الذكاء الاصطناعي لتكون أكثر توافقاً مع تعقيدات اللغة البشرية.
ثورة جديدة في الذكاء الاصطناعي: الكشف عن العيوب في دمج الكلام والرؤية!
تم الكشف عن نقاط ضعف نماذج اللغة الضخمة السمعية-البصرية في فهم الكلام، مما يؤدي إلى نتائج غير دقيقة. دراسة جديدة تقدم SVHalluc كأداة لتقييم هذه الظاهرة المثيرة للاهتمام.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
