في عالم الذكاء الاصطناعي، يجسد [نموذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)-واللغة) والإجراءات ([VLA](/tag/vla)) نقطة التقاء قوية بين [الرؤية](/tag/الرؤية) والتفاعل البشري. إلا أن طرق [التدريب](/tag/التدريب) التقليدية لهذه [النماذج](/tag/النماذج) تؤدي إلى ظاهرة مثيرة للقلق تُعرف بـ 'ضريبة [تجسيد](/tag/تجسيد)'، حيث تتآكل كفاءتها [متعددة الوسائط](/tag/متعددة-الوسائط) بشكل منهجي.

لكن، هل من الضروري أن تنسى هذه [النماذج](/tag/النماذج)؟ يعيد [نموذج](/tag/نموذج) العمل الموحد ([UAM](/tag/uam)) صياغة هذا المبدأ من خلال استلهام هيكلية [رؤية](/tag/رؤية) [الدماغ](/tag/الدماغ) البشري، حيث نقوم بتحديد التدهور الملاحظ في [أداء](/tag/أداء) هذه [النماذج](/tag/النماذج) بفعل عنق زجاجة هيكلي. فبدلاً من الاعتماد على مشفر واحد يدعم كلاً من المعاني المستندة إلى [اللغة](/tag/اللغة) والخصائص البصرية المتعلقة بالتحكم، يعمد هذا النموذج الجديد إلى استخدام مسارين منفصلين.

فالنهج الجديد يقدم 'خبير ظهر موازي'، وهو نظير للمسار الظهري في دماغ الإنسان. ولتعزيز فعالية هذا المسار الثاني وتقليل العبء التعليمي الملقى على [نموذج الرؤية](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)) واللغة، تم تهيئته من [نموذج](/tag/نموذج) مولد تم تدريبه مسبقاً ويدرب بهدف [استدلال](/tag/استدلال) وسطى يتنبأ بالديناميات البصرية.

هذا [التصميم](/tag/التصميم) الجديد يمكّننا من [تدريب](/tag/تدريب) [نموذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)-واللغة) بشكل شامل على [بيانات](/tag/بيانات) الإجراءات فقط، دون تجميد أي من المعلمات أو وقف التدرجات، مما يضمن الحفاظ على أكثر من 95% من [كفاءة](/tag/كفاءة) النموذج الأصلي في العديد من مهام المعالجة، بما في ذلك الكائنات غير المرئية وتراكيب الأهداف الجديدة.

تشير هذه النتائج إلى أن الحفاظ على المعاني في [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) يمكن أن ينبثق من التفريق المعماري نفسه بدلاً من الاعتماد على وزن مجمّد أو إعادة لعب [بيانات](/tag/بيانات) مساعدة، مما يفتح آفاقًا جديدة للذكاء الاصطناعي.