استكشاف الآليات الداخلية لنماذج اللغات متعددة الوسائط: كيف نفهم التصورات البصرية؟

على الرغم من النجاح الباهر الذي حققته نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs) في مجموعة متنوعة من المهام، إلا أن الآليات الداخلية التي تحدد كيفية تشفيرها لمفاهيم بصرية مختلفة لا تزال غير مفهومة بشكل جيد. لذا، نطرح إطارًا سببيًا يعتمد على توجيه التنشيط (activation steering) من أجل استكشاف هذه التصورات البصرية وتحليلها.

تتضمن دراستنا تدخلًا منهجيًا عبر أربعة فئات من المفاهيم البصرية، وقد كشفت النتائج عن وجود تباين في كيفية تشفير هذه المفاهيم: إذ تظهر الكيانات (entities) حفظًا محليًا مميزًا، في حين يتم توزيع المفاهيم المجردة (abstract concepts) عبر الشبكة بشكل عام. يكشف هذا التباين عن عامل ميكانيكي دافع لقوانين التوسع (scaling laws): فزيادة عمق النموذج (model depth) تعد ضرورية لتشفير المفاهيم المعقدة والموزعة، بينما تبقى موضعية الكيانات مغلقة على نحو ملحوظ دون تغيير.

علاوة على ذلك، تكشف عمليات إعادة التوجيه العكسية (reverse steering) عن أن حجب المخرجات الواضحة يؤدي إلى زيادة كبيرة في التنشيطات الكامنة، مما يُظهر آلية تعويضية بين الإدراك (perception) وإنتاج النتائج (generation). نوسع تحليلنا ليشمل الاستدلال البصري (visual reasoning)، حيث نكتشف وجود فجوة بين الإدراك والاستدلال: رغم أن MLLMs تتعرف على العلاقات الهندسية بنجاح، إلا أنها تعالج هذه العلاقات كميزات بصرية ثابتة فقط، دون أن تثير التنفيذ الإجرائي اللازم لحل المشكلات المجردة.

إن فهم هذه الآليات يعد خطوة مهمة نحو تحسين أداء نماذج الذكاء الاصطناعي في مهام متعددة ومتنوعة. ما رأيكم في هذه التحليلات التي تكشف عن جوانب غير مألوفة حول كيفية عمل هذه النماذج؟ شاركونا آرائكم في التعليقات.

استكشاف الآليات الداخلية لنماذج اللغات متعددة الوسائط: كيف نفهم التصورات البصرية؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!