في عالم الذكاء الاصطناعي، يجسد نموذج الرؤية واللغة والإجراءات (VLA) نقطة التقاء قوية بين الرؤية والتفاعل البشري. إلا أن طرق التدريب التقليدية لهذه النماذج تؤدي إلى ظاهرة مثيرة للقلق تُعرف بـ 'ضريبة تجسيد'، حيث تتآكل كفاءتها متعددة الوسائط بشكل منهجي.

لكن، هل من الضروري أن تنسى هذه النماذج؟ يعيد نموذج العمل الموحد (UAM) صياغة هذا المبدأ من خلال استلهام هيكلية رؤية الدماغ البشري، حيث نقوم بتحديد التدهور الملاحظ في أداء هذه النماذج بفعل عنق زجاجة هيكلي. فبدلاً من الاعتماد على مشفر واحد يدعم كلاً من المعاني المستندة إلى اللغة والخصائص البصرية المتعلقة بالتحكم، يعمد هذا النموذج الجديد إلى استخدام مسارين منفصلين.

فالنهج الجديد يقدم 'خبير ظهر موازي'، وهو نظير للمسار الظهري في دماغ الإنسان. ولتعزيز فعالية هذا المسار الثاني وتقليل العبء التعليمي الملقى على نموذج الرؤية واللغة، تم تهيئته من نموذج مولد تم تدريبه مسبقاً ويدرب بهدف استدلال وسطى يتنبأ بالديناميات البصرية.

هذا التصميم الجديد يمكّننا من تدريب نموذج الرؤية واللغة بشكل شامل على بيانات الإجراءات فقط، دون تجميد أي من المعلمات أو وقف التدرجات، مما يضمن الحفاظ على أكثر من 95% من كفاءة النموذج الأصلي في العديد من مهام المعالجة، بما في ذلك الكائنات غير المرئية وتراكيب الأهداف الجديدة.

تشير هذه النتائج إلى أن الحفاظ على المعاني في نماذج الرؤية واللغة يمكن أن ينبثق من التفريق المعماري نفسه بدلاً من الاعتماد على وزن مجمّد أو إعادة لعب بيانات مساعدة، مما يفتح آفاقًا جديدة للذكاء الاصطناعي.