في عالم الذكاء الاصطناعي، تُعتبر نماذج اللغة-الرؤية (Vision-Language Models) من الابتكارات الثورية التي تمكّن الآلات من الإجابة على الأسئلة المتعلقة بالصور بطريقة واثقة وصحيحة في كثير من الأحيان، حتى في غياب الصورة نفسها! لكن هل هذا يعني أن هذه النماذج تمتلك الفهم البصري الحقيقي؟ يبدو أن الإجابة هي لا.
قدمت دراسة حديثة تستخدم إطار عمل جديد يُعرف باسم "Mirage Probes"، والذي يقوم بتقييم كيفية تعامل هذه النماذج مع الأسئلة المشابهة، بفصل واضح بين "الخداع البصري". إذ تكشف النتائج أن هذا الخداع ليس نوعًا واحدًا فحسب، بل نوعين رئيسيين. كيف يمكننا تمييز ذلك؟ من خلال رصد أنماط تنشيط داخلي في نماذج مفتوحة المصدر، تمكنا من إثبات أن هذه الأنماط تُظهر استجابات غير ترتبط بالتمثيلات البصرية بشكل حقيقي.
إحدى النتائج المثيرة كانت أن نموذج Naive Bayes التلقائي لم يستطع استرداد هذه الأنماط، مما يعني أن التنبؤات لم تكن تحتوي على تداخلات سطحية، بل كانت تعكس انحيازات نصية واضحة. تبين أن هناك نوعين من السلوك المضلل: أحدهما يتعامل مع استجابات تستند إلى انحيازات لغوية دون تفاعل مع التمثيلات البصرية، والآخر يُشكل محتوى بصري زائف ويقوم بالإجابة كما لو كان مؤسسًا عليه.
تظهر هذه الفروق أهمية عميقة في كيفية معالجة هذه التحديات. بينما يمكن أن تساعد تنظيف توزيعات النصوص في تصحيح النوع الأول من السلوك، إلا أن معالجة النوع الثاني تحتاج إلى معالجة أشمل على مستوى التمثيل البصري.
لذا، إذا كنا نرغب في الوصول إلى فهم بصري حقيقي، فعلينا أن نبدأ بالتدخلات على مستوى التمثيلات داخل النموذج. فهل سنشهد تحولًا في كيفية تطور نماذج الذكاء الاصطناعي في المستقبل القريب؟
استكشاف خدعة الرؤية: نماذج اللغة-الرؤية تكشف عن فهم زائف!
تقدم نماذج اللغة-الرؤية (VLMs) إجابات واثقة وصحيحة على الأسئلة المرتبطة بالصور حتى في غيابها، مما يثير تساؤلات حول دقة النتائج. تكشف دراسة جديدة عن وجود نوعين من الخدع البصرية التي تؤثر على القدرة التفسيرية لهذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
