في الآونة الأخيرة، شهد مجال الذكاء الاصطناعي تطورًا ملحوظًا في كيفية توليد الصور، ومن أبرز الابتكارات الجديدة هي تقنية PixelGen. تعتمد PixelGen على مفهوم "انتشار البيكسل" (Pixel Diffusion)، الذي يتيح إنشاء الصور مباشرة من الفضاء البيكسلي، متجنبًا مشكلات الشدّ والتشويه التي قد تحدث عند استخدام نماذج الانتشار الكامنة (Latent Diffusion Models).

مع تطور الفكرة، استخدمت التقنية الجديدة نظام "توقع-x" (x-prediction)، حيث يصبح النموذج قادرًا على التنبؤ بالصور النظيفة مباشرة بدلًا من التعامل مع تغيرات السرعة، مما يعزز جودة النتائج النهائية.

ومع ذلك، واجهت نماذج الانتشار التقليدية مشكلة في فقدان الدقة، حيث تعاملت مع جميع البيكسلات بنفس الطريقة، مما أدى إلى استخدام إهدار كبير في القدرة المعالجة للصفات غير المهمة بصريًا، وغالبًا ما يؤدي إلى صور ضبابية.

لتجاوز هذه العقبة، تقدم PixelGen إطار عمل متكامل لتحسين انتشار البيكسل من خلال إدراج إشراف إدراكي. حيث تم تعزيز نظام التوقع-x بعمليتين من الخسارة الإدراكية المكمّلة: الأولى هي LPIPS التي تركز على التفاصيل المحلية للملمس، والثانية هي P-DINO التي تتناول المعاني العامة للصورة.

للحفاظ على تنوع العينات وجودتها، تتبنى PixelGen استراتيجية "تصفية الضوضاء" (noise-gating)، حيث تُطبق هذه العمليات فقط في المراحل الأقل ضوضاء.

في التجارب التي أجريت على مجموعة بيانات ImageNet-256، حققت PixelGen نتائج مدهشة، حيث تمكنت من الوصول إلى معامل FID بقيمة 5.11 بعد 80 دورة تدريب. وهذه النتائج تفوق بكثير الأسس التقليدية للانتشار الكامن. وعلاوة على ذلك، فتقديم PixelGen في توليد الصور من النصوص حقق نتائج تصل إلى GenEval Score بقيمة 0.79 في 6 أيام من التدريب باستخدام 8 وحدات معالجة رسومية (GPUs).

بفضل هذه الابتكارات، يتضح أن الإشراف الإدراكي يضيق الفجوة بين تقنيتي انتشار البيكسل والانتشار الكامن مع الحفاظ على كفاءة بسيطة في العمليات.

لمن يرغب في استكشاف هذه التقنية أكثر، الكود المتعلق بتقنية PixelGen متاح على GitHub.