تُعد التخيلات إحدى أكبر التحديات التي تؤثر على موثوقية نماذج الرؤية واللغة الكبيرة (Large Vision-Language Models - LVLMs). ينشأ السؤال: ما الذي يجعل هذه النماذج أقل عرضة للتخيلات؟ في الوقت الذي تركز فيه العديد من الجهود على تحسين المكونات الداخلية للنموذج، نؤكد أن التخيلات تنبع أساساً من تصميم هيكل النموذج نفسه.

لتسليط الضوء على هذه النقطة، قمنا بتفكيك تصميم المعمارية إلى ثلاثة أبعاد أساسية: الأساس اللغوي (Linguistic Foundation - LF)، التمثيل البصري (Visual Representation - VR)، والمطابقة الدلالية (Semantic Alignment - SA). كما قمنا بتصنيف التخيلات إلى ثلاثة أنواع: التزامن (Co-occurrence)، والتشابه (Similarity)، وأنواع عدم اليقين التي تم تجاهلها سابقاً (Uncertainty).

بناءً على ذلك، اقترحنا معيارًا يسمى CoSimUE، الذي يخلق سيناريوهات تخيلية دقيقة من خلال تغيرات نصية محكومة وتغيرات عشوائية، مما يمكّن من رسم خريطة بين خيارات التصميم وسلوكيات التخيلات.

أظهرت التجارب عبر سبعة جوانب تصميمية أن:
1. تغيير حجم معلمات النموذج له تأثير محدود فقط على تقليل الأنواع الثلاثة من التخيلات.
2. الأسس اللغوية الأكبر والأفضل تدريبًا يمكن أن تقلل من تخيلات التزامن.
3. ترميز الصورة الأقوى والدقة الأعلى تخفف من أخطاء التشابه.
4. استراتيجيات المحاذاة الفعالة تخفف من تخيلات عدم اليقين.
5. الأهم من ذلك، تشير التحليلات عبر الأبعاد المختلفة إلى أنه يمكن تحقيق تحسين شامل عند تعزيز جودة البصرية والمطابقة معًا.

تُقدم هذه الدراسة أول استكشاف منهجي يربط تصميم المعمارية بمستوى قوة التخيلات، مما يوفر توجيهات عملية لتطوير نماذج LVLMs موثوقة وفعالة. هل تعتقد أن تحسين التصميم المعماري هو الحل الرئيس لمشكلة التخيلات؟ شاركونا آراءكم في التعليقات.