في الآونة الأخيرة، أصبح تحسين محاذاة التمثيلات (Representation Alignment) أحد الحلول الفعالة لتسريع تدريب نماذج المحولات الانتشارية (Diffusion Transformers). على الرغم من نجاح طرق المحاذاة الحالية، إلا أنها تعاني من فرض هدف إشراف ثابت طوال مسار إزالة الضوضاء، سواء من خلال مشفرات الرؤية الخارجية أو تمثيلات الذات الداخلية. لكننا نؤكد أن مثل هذه المحاذاة التي لا تأخذ في الاعتبار أطر الزمن غير فعالة، حيث يتغير مستوى فعالية إشراف التمثيلات مع نسبة الإشارة إلى الضوضاء. في بيئات الضوضاء العالية، تستفيد النماذج من التحسينات المعنوية والهيكلية المرتكزة على مستويات عامة، بينما في البيئات المنخفضة الضوضاء يتطلب التدريب تركيزًا على التفاصيل المكانية وهيكلة البيانات.

لمعالجة هذه المشكلة، يقدم الباحثون تقنية AHPA (Adaptive Hierarchical Prior Alignment)، وهي إطار عمل خفيف الوزن يستفيد من التمثيلات الهيكلية المدمجة في مشفر VAE. بدلاً من استخدام latent مضغوط واحد كهدف للمحاذاة، يستخرج AHPA ميزات متعددة المستويات من VAE، مما يوفر معلومات متكاملة تتراوح بين الهندسة المحلية والتخطيط الدلالي. تستخدم التقنية جهاز توجيه ديناميكي يعتمد على الوقت لاختيار وتخصيص هذه الشروط الهيكلية بمرور الوقت، مما يجعل عملية المحاذاة أكثر توافقًا مع احتياجات التدريب المتطورة للنموذج.

أظهرت التجارب الواسعة أن AHPA تحسن من سرعة التقارب وجودة الإنتاج مقارنة بالممارسات السابقة، بالإضافة إلى عدم زيادة تكاليف الاستدلال وتجنب الحاجة إلى إشراف خارجي أثناء التدريب.