تُعتبر نماذج الرؤية واللغة الموحدة (Unified Vision-Language Models) أحد أبرز التطورات في الذكاء الاصطناعي، حيث تجمع بين الفهم البصري والتوليد البصري ضمن هيكل واحد يعتمد على أساليب التنبؤ التلقائي. ورغم الفوائد العديدة لهذه النماذج، إلا أن تدريبها يتطلب موارد حوسبة ضخمة، مما يطرح تساؤلات حول كفاءتها.

في دراسة جديدة نُشرت على موقع arXiv، قام الباحثون بالتحليل المنهجي لتخفيف عدد الرموز (Token Reduction) كوسيلة لتسريع تدريب النماذج الموحدة. خلال هذا البحث، تم اكتشاف تباين أساسي في كيفية تخصيص الانتباه عبر طبقات النموذج. فبينما يظهر الفهم البصري فائضًا ملحوظًا من الرموز في الطبقات المتأخرة، فإن التوليد البصري يستمر في الاعتماد على الرموز البصرية حتى في العمق.

استنادًا إلى هذه الملاحظات، قام الباحثون بتصميم مسرعات مخصصة لمهام معينة، والتي تهدف إلى تقليل حساب الرموز البصرية وفقًا لكل هدف. على الرغم من أن هذه الأساليب حققت تحسينات ملحوظة في الكفاءة ضمن إعدادات معزولة، إلا أن التوجه لتحقيق كفاءة أكبر في سياق التدريب الموحد كان مرفوقًا بفقدان التوافق الطارئ. إذ يتطلب تخفيف الرموز اعتماد مسارات معلمات متباينة، مما يُفقد النتائج التي يتم تحقيقها عادةً من خلال التحسين المشترك.

تُشير النتائج إلى أن النمذجة الموحدة بشكل فعال تحتاج إلى الحفاظ على الهياكل المشتركة عبر المهام، مما يُبرز الحاجة إلى استراتيجيات تسريع تدرك أهمية التوافق بين المهام المختلفة. لمزيد من التفاصيل، يمكن زيارة مشروع الدراسة.