في عالم الذكاء الاصطناعي، تزداد تعقيدات التفاعل بين البيانات البصرية واللغة بشكل متسارع. لقد أظهر بحث جديد كيف يتم إدخال الرموز البصرية (visual tokens) إلى نماذج اللغة الضخمة (Large Language Models) كإشارات خام تفتقر إلى الهيكلية اللغوية. تركز هذه الدراسة على كيفية تحول هذه الرموز البصرية إلى تمثيلات ذات معنى وتفاعلها مع فضاء اللغة، والذي يعتمد على الهيكل المعماري المستخدم في التكامل.

نجد أن هناك طريقتين رئيسيتين للتكامل: إما من خلال معالجتها كتحفيز ضمن تسلسل الإدخال، أو من خلال حقنها مباشرة في الطبقات الوسيطة للنموذج. من خلال إجراء مقارنة شاملة، توصل الباحثون إلى ضرورة فهم تأثير هذه الخيارات الهيكلية على المعلومات البصرية وكيفية تحولها الداخلي لتتناسب مع النموذج.

تعتمد هذه الدراسة على تقييم المعايير تحت ظروف تدريب متطابقة عبر معايير الصور المفردة، متعددة الصور، ومقاطع الفيديو. من خلال ذلك، يكشف البحث عن تطور خفي، حيث يتم إدخال الرموز البصرية في النموذج كنصوص بصرية مموهة، تُشكل حسب نمط التكامل، مما يلتقط خصائص تردد مختلفة للإشارة البصرية.

علاوة على ذلك، أوضحت النتائج أن تخصيص الانتباه وحده ليس كافياً، بل أن الأداء يعتمد بشكل كبير على جودة التمثيلات البصرية في كل طبقة. تظهر هذه الاكتشافات كيف تحدد كل خوارزمية تكامل قدرات النموذج على استخدام الميزات البصرية بكفاءة وكيف تتوافق التمثيلات البصرية مع الفضاء اللغوي، مما يؤثر في النهاية على أداء كل نموذج في المهام المتنوعة.