تُعد نماذج اللغات الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs) من أبرز الابتكارات في مجال الذكاء الاصطناعي، حيث أثبتت قدرتها على التفوق في مهام الفهم البصري. لكن ماذا يحدث عندما تُعرض على مشاهد تتناقض مع ما يعرفونه عن العالم؟ لتسليط الضوء على هذه القضية، تم تقديم CAIT، وهو معيار يتضمن 400 مشهدٍ صناعي عالي الدقة يتناول تصرفات بصرية غير بديهية، مثل "الأرنب يطارِد نمرًا"، حيث تتعارض الدلائل المرئية بشكل واضح مع التوقعات الشائعة.
في دراسة شاملة، تم تقييم أداء البشر والنماذج الرائدة والمملوكة (كـ Claude و Gemini) بالإضافة إلى 14 نموذجًا تمثيليًا مفتوح المصدر. بينما بلغت دقة أداء البشر حوالي 0.95، حققت النماذج المملوكة أداءً قويًا بلغ 0.88، إلا أن النماذج المفتوحة المصدر بشكل عام أدت إلى نتائج عشوائية. تكشف التحليلات أن هذا الإخفاق ناتج عن انحياز لغوي قوي؛ بدلًا من الاعتماد على المدخلات البصرية، كانت هذه النماذج تميل إلى استبدال الإشارات المرئية الشاذة بوصف نصي شائع.
على الرغم من أن تضمين آلية Chain-of-Thought يمكن أن يحسن من الدقة، إلا أنه يؤدي أيضًا إلى إبطاء الاستجابة ويؤدي إلى نمط فشل جديد، حيث تتردد النماذج في قبول المحتوى البصري الفعلي لأنها تعتبره مخالفًا لقوانين الفيزياء الواقعية. ومع ذلك، يُظهر البحث أن التعديل المستهدف والتحفيز الهيكلي يمكن أن يقلل بشكل فعال من الاعتماد على انحيازات اللغة، مما يمكّن النماذج المفتوحة من توصيل تفكيرها بالدليل المرئي الفعلي.
ما رأيكم في تحديات نماذج الذكاء الاصطناعي عندما تواجه معلومات تتعارض مع البديهيات؟ شاركونا آراءكم!
بين الرؤية والايمان: استكشاف انحياز اللغة في نماذج اللغات الضخمة مفتوحة المصدر
تظهر نماذج اللغات الضخمة متعددة الوسائط (MLLMs) أداءً مRemarkable في مهام الفهم البصري، ولكن تظل قدرتها على معالجة المشاهد المتعارضة مع البديهيات اليومية قيد الاختبار. يهدف هذا البحث إلى سد هذه الفجوة من خلال تقييم أداء البشر ونماذج مملوكة ونماذج مفتوحة المصدر في مشاهد بصرية يتناقض فيها المحتوى مع التوقعات الشائعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
