على الرغم من النجاح الباهر الذي حققته نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs) في مجموعة متنوعة من المهام، إلا أن الآليات الداخلية التي تحدد كيفية تشفيرها لمفاهيم بصرية مختلفة لا تزال غير مفهومة بشكل جيد. لذا، نطرح إطارًا سببيًا يعتمد على توجيه التنشيط (activation steering) من أجل استكشاف هذه التصورات البصرية وتحليلها.
تتضمن دراستنا تدخلًا منهجيًا عبر أربعة فئات من المفاهيم البصرية، وقد كشفت النتائج عن وجود تباين في كيفية تشفير هذه المفاهيم: إذ تظهر الكيانات (entities) حفظًا محليًا مميزًا، في حين يتم توزيع المفاهيم المجردة (abstract concepts) عبر الشبكة بشكل عام. يكشف هذا التباين عن عامل ميكانيكي دافع لقوانين التوسع (scaling laws): فزيادة عمق النموذج (model depth) تعد ضرورية لتشفير المفاهيم المعقدة والموزعة، بينما تبقى موضعية الكيانات مغلقة على نحو ملحوظ دون تغيير.
علاوة على ذلك، تكشف عمليات إعادة التوجيه العكسية (reverse steering) عن أن حجب المخرجات الواضحة يؤدي إلى زيادة كبيرة في التنشيطات الكامنة، مما يُظهر آلية تعويضية بين الإدراك (perception) وإنتاج النتائج (generation). نوسع تحليلنا ليشمل الاستدلال البصري (visual reasoning)، حيث نكتشف وجود فجوة بين الإدراك والاستدلال: رغم أن MLLMs تتعرف على العلاقات الهندسية بنجاح، إلا أنها تعالج هذه العلاقات كميزات بصرية ثابتة فقط، دون أن تثير التنفيذ الإجرائي اللازم لحل المشكلات المجردة.
إن فهم هذه الآليات يعد خطوة مهمة نحو تحسين أداء نماذج الذكاء الاصطناعي في مهام متعددة ومتنوعة. ما رأيكم في هذه التحليلات التي تكشف عن جوانب غير مألوفة حول كيفية عمل هذه النماذج؟ شاركونا آرائكم في التعليقات.
استكشاف الآليات الداخلية لنماذج اللغات متعددة الوسائط: كيف نفهم التصورات البصرية؟
تعاني نماذج اللغات متعددة الوسائط (MLLMs) من نقص في الفهم حول كيفية تشفيرها لمفاهيم بصرية مختلفة. نقدم إطارًا سببيًا يكشف عن اختلافات هامة في كيفية تمثيل هذه المفاهيم داخليًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
