في عالم الذكاء الاصطناعي المتطور، تظل مسألة توافق نماذج اللغة الرؤية (Vision-Language Models) مع الإدراك البشري في فهم المشاهد المعقدة تحدياً كبيراً. وقد أظهرت دراسة حديثة كيف أن النماذج الكبيرة تعاني من فجوات في الإدراك مقارنةً بالبشر.
تقدمت الدراسة بإطار جديد يُسمى أهمية السالمية السيمانتية المعاكسة (Counterfactual Semantic Saliency) الذي لا يعتمد على نموذج معين، ويقدّر أهمية العناصر من خلال قياس التحولات الدلالية الناتجة عن إغفال عنصر معين في المشهد.
قد أظهرت التحاليل التي أجراها الباحثون على 16,289 استجابة بشرية عبر 307 مشاهد طبيعية معقدة و1,306 متغيرات معاكسة، أن النماذج كانت تعتمد بشكل مفرط على الأجسام الكبيرة والموقع المركزي للمشاهد.
على عكس ذلك، كانت النماذج أقل اعتماداً على الأشخاص داخل المشاهد عند وصف الصور. ويبدو أن التحيز نحو حجم الأجسام كان عاملاً رئيسياً في تفسير الفرق بين إدراك النموذج والبشر.
لذا، هل يمكن أن تؤدي هذه النتائج إلى فهم أعمق للذكاء الاصطناعي وكيف يمكن تحسينه ليكون أكثر توافقاً مع رؤية البشر؟ يتطلع الباحثون إلى المزيد من النقاش حول هذا الموضوع، حيث ستتوافر الكود والبيانات قريباً على منصة GitHub.
فجوة الإدراك بين البشر ونماذج اللغة الرؤية: كيف تعمل خوارزميات الذكاء الاصطناعي على إعادة تشكيل فهمنا للمشاهد؟
توضيح الفجوة بين إدراك البشر ونماذج اللغة الرؤية عند فهم المشاهد المعقدة يكشف عن اعتماد النماذج على الأجسام الكبيرة والموقع المركزي. دراسة جديدة تقدم إطاراً مبتكراً يقيم هذه الفجوة باستخدام تقنية جديدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
