في عصر يتحكم فيه الذكاء الاصطناعي في الكثير من جوانب حياتنا، يأتي البحث الجديد الذي نشره باحثون على منصة arXiv ليحدث طفرة في نماذج متعددة الوسائط (Multimodal Models). يُبرز البحث الصعوبات التي تواجهها النماذج الموجودة حاليًا، حيث يُشير إلى أن التدريب الانحداري الذاتي (Autoregressive next-token training) يخلق تنافسًا قويًا بين الأنماط، مما يؤدي إلى عدم استقرار في عملية التحسين.
لقد أظهر الباحثون أن المحسّنات من الدرجة الأولى مثل AdamW تعاني من عدم تجانس تدرجات الأنماط، وهو ما يُعد عائقًا أمام تحقيق الأداء المطلوب. هنا تبرز أهمية تقنية تصحيح التباين متعدد المستويات (Multi-Level Variance Correction) التي تم تقديمها تحت إطار عمل جديد يُعرف بـ ML-FOP-SOAP، والذي يعتمد على تسلسل راتنج فيشر الأورثوغونالي (Fisher-Orthogonal Projection) لتقليل النزاعات الناتجة عن التباين بين الأنماط.
هذا الابتكار لا يضمن فقط تحسين فعالية التدريب، بل يُعزز أيضًا من قدرتنا على مزامنة توليد الصور وفهم النصوص بطريقة أكثر فاعلية. وتجدر الإشارة إلى أن التجارب التي أُجريت على كل من Janus وEmu3 أظهرت تحسنًا ملحوظًا في الكفاءة والنموذج عند حجم دفعة يصل إلى 8192.
مع إمكانية تحسين الكفاءة العينية بمقدار يصل إلى 1.4 مرة وتسريع زمن التدريب بحدود 1.5 مرة مقارنةً بأسلوب AdamW، فإن ML-FOP-SOAP يُعد خطوة هائلة نحو تحسين النماذج الأساسية متعددة الوسائط.
تقدم ثوري في نماذج متعددة الوسائط: تصحيح تباين متعدد المستويات لتعزيز التنافس بين الأنماط!
شهدت نماذج الذكاء الاصطناعي متعددة الوسائط تقدمًا ملحوظًا مع تقديم إطار عمل جديد يُعرف بـ ML-FOP-SOAP. هذا الابتكار يهدف إلى تحسين التوازن بين توليد الصور وفهم النصوص بطريقة أكثر كفاءة واستقرارًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
