تسعى نماذج الذكاء الاصطناعي متعددة الوسائط (Unified Multimodal Models - UMMs) إلى الجمع بين الفهم البصري وتوليد المحتوى ضمن بنية واحدة. ولكن، كانت هناك تحديات كبيرة تتعلق بكفاءة التدريب على هذه النماذج، وذلك أساساً بسبب اعتمادها على أزواج من الصور والنصوص، والتي غالباً ما تكون توصيفاتها ضئيلة وتفتقر إلى التفاصيل البصرية الدقيقة.

لذلك، قدم الباحثون تقنية "تحسين محاذاة إعادة البناء" (Reconstruction Alignment - RECA) كطريقة مبتكرة بعد التدريب تتيح استخدام تضمينات الفهم البصري كمدخلات نصية كثيفة، مما يوفر إشرافًا غنيًا دون الحاجة لوصف النصوص.

تعمل RECA على ضبط نماذج UMMs عن طريق تجميع الفهم البصري، وتحسينه من أجل إعادة بناء الصورة الأصلية باستخدام خسارة إعادة بناء ذاتية الإشراف. ورغم بساطتها، أثبتت RECA فعاليتها عبر نماذج UMMs المختلفة، بما في ذلك النماذج الذاتية التحفيزية والمختلفة.

ولقد حققت RECA نتائج مدهشة، حيث زادت أداء توليد الصور في اختبار GenEval من 0.73 إلى 0.90، وفي DPGBench من 80.93 إلى 88.15. كما عززت نتائج التعديل لتصل إلى (ImgEdit) من 3.38 إلى 3.75 و(GEdit) من 6.94 إلى 7.27.

ما يميز RECA هو قدرتها على تجاوز النماذج المفتوحة الأكبر حجماً، مما يجعلها استراتيجية فعالة وعاملاً محوريًا في تحسين نماذج UMMs. هذه التطورات تشير إلى اتجاه مثير في عالم الذكاء الاصطناعي ويؤكد على إمكانيات العمل مع نماذج متعددة الوسائط.

ما رأيكم في هذا التوجه الجديد؟ هل تعتقدون أن هذه التحسينات ستحدث فرقًا في أداء الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.