أومنيجن2: نموذج ثوري لتحسين التوليد متعدد الوسائط وفق التوجيهات

في عالم الذكاء الاصطناعي المتطور، يأتي نموذج أومنيجن2 (OmniGen2) ليُحدث ثورة في طريقة التعامل مع التوليد متعدد الوسائط. هذا النموذج المفتوح المصدر يقدم حلاً موحدًا لمهام توليد مختلفة تشمل تحويل النص إلى صورة (text-to-image)، تعديل الصور، والتوليد السياقي.

يتميز أومنيجن2 بتصميم مبتكر يتضمن مسارين مختلفين لفك تشفير النصوص والصور، مما يضمن تحسين الأداء دون الحاجة لإعادة تعديل مدخلات نماذج التشفير التلقائي (VAE). هذه الخطوة تتيح للنموذج المحافظة على القدرات الأصلية لتوليد النصوص.

لتعزيز فعالية أومنيجن2، تم تطوير مجموعة شاملة من أنظمة بناء البيانات التي تشمل بيانات تعديل الصور والتوليد السياقي. ومن بين الميزات الجديدة التي تم إدراجها، نجد آلية انعكاس مصممة خصيصًا لمهام توليد الصور، بالإضافة إلى مجموعة بيانات انعكاسية تم إنشاؤها لدعم النموذج.

على الرغم من حجم المعلمات المتواضع نسبيًا، يحقق أومنيجن2 نتائج تنافسية في العديد من مؤشرات الأداء، بما في ذلك توليد النص إلى صورة وتعديل الصور. لقياس أداء النموذج في التوليد السياقي، تم تقديم معيار جديد يُعرف باسم أومنيكونتكس (OmniContext).

يحقق أومنيجن2 أعلى مستويات الأداء بين النماذج المفتوحة المصدر من حيث التناسق، وسيتم نشر نماذجنا وكود التدريب ومجموعات البيانات لدعم البحث المستقبلي في هذا المجال. اطلع على المزيد من التفاصيل عن المشروع من خلال زيارة الصفحة الرسمية أو مستودع GitHub الخاص بالنموذج.

أومنيجن2: نموذج ثوري لتحسين التوليد متعدد الوسائط وفق التوجيهات

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

عوامل نجاح وكالات نماذج اللغة المعتمدة على البلوكتشين: تجربة DX Terminal Pro التي غيرت القواعد!

تطوير نماذج شخصية متعددة قائمة على سلوكيات المستخدمين بدقة وثقة رائدة!

استخدم نقاط المركزية للانتروبيا كمكافآت داخلية لتحسين أداء نماذج الذكاء الاصطناعي!