في عالم الذكاء الاصطناعي المتطور، يأتي نموذج أومنيجن2 (OmniGen2) ليُحدث ثورة في طريقة التعامل مع التوليد متعدد الوسائط. هذا النموذج المفتوح المصدر يقدم حلاً موحدًا لمهام توليد مختلفة تشمل تحويل النص إلى صورة (text-to-image)، تعديل الصور، والتوليد السياقي.

يتميز أومنيجن2 بتصميم مبتكر يتضمن مسارين مختلفين لفك تشفير النصوص والصور، مما يضمن تحسين الأداء دون الحاجة لإعادة تعديل مدخلات نماذج التشفير التلقائي (VAE). هذه الخطوة تتيح للنموذج المحافظة على القدرات الأصلية لتوليد النصوص.

لتعزيز فعالية أومنيجن2، تم تطوير مجموعة شاملة من أنظمة بناء البيانات التي تشمل بيانات تعديل الصور والتوليد السياقي. ومن بين الميزات الجديدة التي تم إدراجها، نجد آلية انعكاس مصممة خصيصًا لمهام توليد الصور، بالإضافة إلى مجموعة بيانات انعكاسية تم إنشاؤها لدعم النموذج.

على الرغم من حجم المعلمات المتواضع نسبيًا، يحقق أومنيجن2 نتائج تنافسية في العديد من مؤشرات الأداء، بما في ذلك توليد النص إلى صورة وتعديل الصور. لقياس أداء النموذج في التوليد السياقي، تم تقديم معيار جديد يُعرف باسم أومنيكونتكس (OmniContext).

يحقق أومنيجن2 أعلى مستويات الأداء بين النماذج المفتوحة المصدر من حيث التناسق، وسيتم نشر نماذجنا وكود التدريب ومجموعات البيانات لدعم البحث المستقبلي في هذا المجال. اطلع على المزيد من التفاصيل عن المشروع من خلال زيارة الصفحة الرسمية أو مستودع GitHub الخاص بالنموذج.