في خطوة رائعة [نحو](/tag/نحو) [مستقبل](/tag/مستقبل) أكثر إشراقًا في عالم [توليد](/tag/توليد) الصور، كشفت [الأبحاث](/tag/الأبحاث) الأخيرة عن [نموذج](/tag/نموذج) مبتكر يهدف إلى التغلب على التحديات الثلاثية التي تواجهها [نماذج توليد](/tag/[نماذج](/tag/نماذج)-[توليد](/tag/توليد)) [الصور](/tag/الصور) باستخدام النصوص. يتمثل هذه التحديات في [تحقيق](/tag/تحقيق) [التوافق](/tag/التوافق) بين النص والصورة، والواقعية الضوئية (photorealism)، والجمالية التي يدركها البشر.
اعتمد الفريق البحثي على استخدام آلية "Supervised Fine-Tuning" ([SFT](/tag/sft)) لتحسين واقعية الصورة، لكن اتضح أنها معرضة لمشكلات مثل التحريف وفقًا لبيانات التدريب، وتأثيرها السلبي على [التوافق](/tag/التوافق) والجمالية. للتغلب على هذه العقبات، تم تقديم [نموذج](/tag/نموذج) "Multimodal Diffusion [Transformers](/tag/transformers)" (MM-[DiT](/tag/dit)) الذي يتبنى نموذجًا جديدًا لتوجيه الميزات.
ركزت الإبداعات الجديدة على آلية [توافق](/tag/توافق) متقاطعة خفيفة الوزن، تعمل على استخلاص [تمثيلات](/tag/تمثيلات) نصية مرتبطة بالرؤية على مستويات متعددة من النموذج SigLIP 2، مما يساعد في [توجيه](/tag/توجيه) [بيانات](/tag/بيانات) [الصورة](/tag/الصورة) خلال مراحل [التدريب](/tag/التدريب) دون أي تكلفة إضافية في عملية [الاستدلال](/tag/الاستدلال).
هذا النموذج لا يضمن فقط توجيهًا مرئيًا للنص، ولكنه يحتفظ أيضًا براعة النموذج الأساسي، مما يتفادى التدهور الناتج عن استخدام [SFT](/tag/sft). حيث قام الباحثون أيضًا بالتنقيب عن [إشارات](/tag/إشارات) [جمالية](/tag/جمالية) غير ظاهرة اعتمادًا على [نماذج الرؤية](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)) المدربة مسبقًا، لتحسين [الجمالية](/tag/الجمالية) التي يدركها البشر.
أظهرت الاختبارات الموسعة أن هذا النظام الجديد قادر على دفع حدود "Pareto"، مما يؤدي إلى [تحسينات](/tag/تحسينات) متكاملة في [التوافق](/tag/التوافق) بين النص والصورة، والواقعية الضوئية، والجمالية المدركة. في عالم [التكنولوجيا](/tag/التكنولوجيا) المتطورة، يبشر هذا التطور بآفاق واسعة في مجالات [الفن الرقمي](/tag/[الفن](/tag/الفن)-الرقمي) والذكاء الاصطناعي، مما يجعلنا نتساءل: كيف ستؤثر هذه [الابتكارات](/tag/الابتكارات) على [مستقبل](/tag/مستقبل) [الفن](/tag/الفن) والتصميم؟
ثورة في توليد الصور:كيف يعزز النموذج الجديد جمالية الصور بدقة عالية
تقدمت الأبحاث في مجال توليد الصور البشرية لتشمل نموذجًا جديدًا يعالج التحديات المتعلقة بالواقعية والجمالية. يعتمد هذا النموذج على آلية توجيه متطورة لتحقيق نتائج فنية مذهلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
