في عالم الذكاء الاصطناعي، تظهر نماذج اللغات متعددة الوسائط (Multimodal Large Language Models - MLLMs) كأحد أبرز الابتكارات التي أثبتت كفاءتها في المهام التي تجمع بين النصوص والصور. على الرغم من ذلك، لا تزال التمثيلات البصرية الداخلية لهذه النماذج صعبة الفهم، مما يُعقد إمكانية تفسير النتائج المستخلصة منها.
يُعتبر استعمال الشفرات التلقائية النادرة (Sparse Autoencoders - SAEs) حلاً واعدًا، حيث تقوم بتفكيك التنشيطات الكثيفة للنموذج إلى ميزات نادرة وقابلة للتفسير. ومع ذلك، كانت التصميمات الحالية للشفرات التلقائية تركز بشكل أساسي على استعادة القواميس مسطحة الميزات، مما يقلل من قدرتها على تنظيم المفاهيم متعددة المستويات بطريقة واضحة وفعالة.
تأتي الابتكارات الجديدة من خلال تقديم الشفرات التلقائية المتدرجة (Cascaded Sparse Autoencoders - CSAEs) التي تهدف لتعلم المفاهيم البصرية الهرمية في نماذج MLLMs. بدلاً من تكديس الشفرات النشطة، تدرب CSAEs شيفرة SAE من المستوى الثاني مباشرة على الأوزان الخاصة بالمشفّر من المستوى الأول، متخذةً من اتجاهات الميزات المنخفضة كمُدخلات للأنماط العليا.
هذا التصميم الفريد يمكّن CSAEs من تعلم "مفاهيم المفاهيم" مع تجنب التحديات المرتبطة بالهرميات المعقدة أو اختناقات الأداء الناتجة عن تكديس الشفرات التقليدية. تعتبر النتائج التي تم الحصول عليها عبر تجارب متعددة على نماذج مثل Qwen3-VL، Gemma-3، وLLaVA مثيرة للإعجاب، حيث أظهرت CSAEs تحسينًا كبيرًا في تفسير الهياكل المفاهيمية الهرمية مقارنةً بالشفرات التلقائية الحالية.
علاوة على ذلك، تُظهر نتائج توجيه المفاهيم أن المجموعات المفهومية المستفادة تدعم التدخلات الفعّالة على مستوى المجموعة في مخرجات نماذج MLLMs، مما يعزز فعالية هذه النماذج وقدرتها على معالجة البيانات البصرية بشكل دقيق. إن هذه الابتكارات تمثل خطوة هامة نحو تحسين فهمنا لكيفية عمل الذكاء الاصطناعي في معالجة وتفسير المعلومات.
ثورة في نماذج الذكاء الاصطناعي: كيف تتعلم الشفرات التلقائية المتدرجة المفاهيم البصرية متعددة المستويات؟
تقدم أبحاث جديدة حول الشفرات التلقائية المتدرجة (CSAEs) طريقة مبتكرة لفهم المفاهيم البصرية في نماذج اللغات متعددة الوسائط. هذه الطريقة تُظهر قدرة أعلى على تفسير الهياكل المعقدة للشفرات، ما يُعزز فعالية النماذج في المهام ذات الطابع البصري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
