في عالم الذكاء الاصطناعي، تظل عملية توليد الصور المحفوظة الهوية تتطلب استخدام نماذج معقدة تعتمد على خطوات متعددة في تقنية الانتشار (diffusion). هذه العملية، رغم فعاليتها، غالبًا ما تكون مكلفة للغاية من حيث الوقت والموارد عند التنفيذ. لكن دراسة جديدة تهدف إلى إعادة صياغة هذا المشهد من خلال تقنيات مبتكرة.
تكشف الدراسة أن تكلفة توليد الصور الشخصية قد تكون غير ضرورية في العديد من الحالات. من خلال استخدام محول هوية (identity adapter) مثبت مسبقًا من InfuseNet، يمكن تحقيق النتائج المرجوة دون الحاجة إلى إعادة تدريب. وهذه كانت الخطوة الجريئة الوحيدة؛ استبدال مسار backbone وتعطيل إرشادات التصنيف (classifier-free guidance)، مما أدى إلى تقليل زمن التنفيذ بنسبة 5.9x، مع تعزيز التشابه في هوية ArcFace بمقدار +0.028 وتحسين قيم lpips بمقدار -0.016 مقارنة بالنموذج التقليدي الذي يعتمد على 28 خطوة.
لشرح سبب نجاح هذه الطريقة، تم تحليل مسار إزالة الضجيج (denoising trajectory) ووجد أن الحفاظ على الهوية يدخل نطاقًا فعالًا مبكرًا، غالبًا في غضون 4 إلى 8 خطوات. بينما تركز الخطوات اللاحقة على تحسين التفاصيل البصرية والحدة والتباين. تؤكد تجارب التكيف (adapter ablations) أن تكوّن الهوية يعتمد بشكل كبير على محول الهوية، بينما تشير نتائج اختبارات تيار الانتباه (attention-stream norm probes) إلى أن نسبة مساهمة التكييف تنقص مع تقدم عملية السحب (sampling).
علاوة على ذلك، أظهرت التجارب الأولية على نماذج SDXL وSD1.5 تحسينات مماثلة في العوائد المتناقصة بعد الخطوات المتوسطة. هذه النتائج تضع استبدال الـ backbone المقطر كاستراتيجية بسيطة وخالية من التدريب لتحسين التوازن بين الكفاءة والموثوقية في توليد الصور المحفوظة الهوية.
هل أنت متحمس لمعرفة المزيد عن هذه التقنية وكيف يمكن أن تغير مجال الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات!
ثورة في توليد الصور: تسريع بدون تدريب مع الحفاظ على الهوية!
تقدم دراسة جديدة طريقة مبتكرة لتوليد الصور المحفوظة الهوية بدون الحاجة لتدريب مكلف، مما يقلل من زمن التنفيذ بشكل كبير. تعتمد الطريقة على استبدال مسار backbone بشكل بسيط لتحسين كفاءة توليد الصور.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
