شهدت تقنيات تحرير الصور تطورات ملحوظة مؤخرًا، وخاصة مع ظهور المحولات الانسيابية (Diffusion Transformers)، التي أظهرت إمكانيات واعدة في إجراء تعديلات فورية على الصور. إلا أن تحرير الصور عبر عدة جولات قد يواجه تحديًا ملحوظًا يتمثل في انحراف المعاني (semantic drift) وتدهور جودة النتائج.

في هذا السياق، قامت دراسة حديثة بتحليل المشكلة من منظور ترددات فضاء التشفير (latent space frequency) عبر تفكيك عملية التحرير إلى عنصرين وظيفيين رئيسيين: النموذج التلقائي الانحداري (VAE) وDiT. ومن خلال التحليل المنهجي في فضاء التشفير، تم اكتشاف أن DiT ينتج انحرافات ترددية منخفضة تتراكم كخطأ في المعاني عبر جولات التحرير، بينما يسهم VAE في تحيز إعادة بناء ثابت نسبيًا.

استنادًا إلى هذه الرؤى، تم اقتراح تقنية جديدة تُدعى VAE-LFA (Alignement Low Frequency)، وهي طريقة لا تتطلب تدريبًا مسبقًا، وتعمل كنظام قابل للتوصيل والتشغيل، تقوم بإجراء عمليات محاذاة في فضاء VAE. تقوم VAE-LFA بتفكيك الفروق التشفيرية عبر جولات التحرير من خلال تصفية ترددية منخفضة، وتقوم بمحاذاة الإحصائيات الترددية المنخفضة مع متوسط متحرك أسي للجولات السابقة، مما يسهم في تقليل الانحراف المتراكم مع الحفاظ على التفاصيل الترددية العالية.

تتميز هذه الطريقة بكونها مناسبة للنماذج المفتوحة (white-box) والمغلقة (black-box)، حيث يمكن دمجها بسلاسة في مسار التحرير للنماذج المفتوحة، بينما تُستخدم في النماذج المغلقة بالتفاعل مع VAE متاح.

أظهرت التجارب الشاملة أن VAE-LFA تُحسن من الاتساق الدلالي (semantic consistency) وجماليات الصورة (visual fidelity) عبر سيناريوهات تحرير متعددة الجولات، بما في ذلك الصور الخاضعة للتحكم والمشاهد الطبيعية. هذه الحلول التكنولوجية تعد بنقلة نوعية في عالم تحرير الصور الذكي، مما يمنح المستخدمين تجارب أكثر دقة وكفاءة.