في عصر يتحكم فيه [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في الكثير من جوانب حياتنا، يأتي [البحث](/tag/البحث) الجديد الذي نشره [باحثون](/tag/باحثون) على [منصة](/tag/منصة) arXiv ليحدث طفرة في [نماذج متعددة الوسائط](/tag/[نماذج](/tag/نماذج)-متعددة-الوسائط) ([Multimodal Models](/tag/multimodal-models)). يُبرز [البحث](/tag/البحث) الصعوبات التي تواجهها [النماذج](/tag/النماذج) الموجودة حاليًا، حيث يُشير إلى أن [التدريب](/tag/التدريب) الانحداري الذاتي (Autoregressive next-token training) يخلق تنافسًا قويًا بين الأنماط، مما يؤدي إلى عدم [استقرار](/tag/استقرار) في عملية [التحسين](/tag/التحسين).

لقد أظهر الباحثون أن المحسّنات من الدرجة الأولى مثل [AdamW](/tag/adamw) تعاني من عدم تجانس تدرجات الأنماط، وهو ما يُعد عائقًا أمام [تحقيق](/tag/تحقيق) [الأداء](/tag/الأداء) المطلوب. هنا تبرز أهمية [تقنية](/tag/تقنية) تصحيح [التباين](/tag/التباين) متعدد المستويات (Multi-Level Variance Correction) التي تم تقديمها تحت إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يُعرف بـ [ML](/tag/ml)-FOP-SOAP، والذي يعتمد على تسلسل راتنج فيشر الأورثوغونالي (Fisher-Orthogonal Projection) لتقليل النزاعات الناتجة عن [التباين](/tag/التباين) بين الأنماط.

هذا [الابتكار](/tag/الابتكار) لا يضمن فقط [تحسين](/tag/تحسين) فعالية التدريب، بل يُعزز أيضًا من قدرتنا على مزامنة [توليد الصور](/tag/[توليد](/tag/توليد)-[الصور](/tag/الصور)) وفهم النصوص بطريقة أكثر فاعلية. وتجدر الإشارة إلى أن [التجارب](/tag/التجارب) التي أُجريت على كل من Janus وEmu3 أظهرت تحسنًا ملحوظًا في [الكفاءة](/tag/الكفاءة) والنموذج عند حجم دفعة يصل إلى 8192.

مع إمكانية [تحسين الكفاءة](/tag/[تحسين](/tag/تحسين)-[الكفاءة](/tag/الكفاءة)) العينية بمقدار يصل إلى 1.4 مرة وتسريع زمن [التدريب](/tag/التدريب) بحدود 1.5 مرة مقارنةً بأسلوب AdamW، فإن [ML](/tag/ml)-FOP-SOAP يُعد خطوة هائلة [نحو](/tag/نحو) [تحسين النماذج](/tag/[تحسين](/tag/تحسين)-[النماذج](/tag/النماذج)) الأساسية [متعددة الوسائط](/tag/متعددة-الوسائط).