لطالما كانت عملية تركيب الصور من زوايا جديدة (Novel View Synthesis) محط اهتمام الباحثين والمطورين في مجال الذكاء الاصطناعي، ويشهد هذا المجال حالياً تقدماً رائعاً بفضل الأساليب المتطورة مثل حقول الإشعاع العصبية (Neural Radiance Fields - NeRF) وتجميع غاز ثلاثي الأبعاد (3D Gaussian Splatting - 3DGS). ورغم النتائج المبهرة لهذه التقنيات، إلا أنها تواجه تحديات في التوازن بين سرعة العرض وحجم النموذج، حيث تعتبر عملية التدريب المعتمدة على التحسين زمنية مكلفة للغاية.

من جهة أخرى، تعاني غالبية هذه الأساليب من الاعتماد على ملاحظات كثيفة، مما يحد من قدرتها على تقديم نتائج مرضية تحت ظروف الرؤية النادرة. ورغم أن إعادة البناء المعتمدة على التغذية الأمامية (Feed-Forward Reconstruction) تقلل بشكل كبير من الوقت اللازم للتحسين في 3DGS، فإن نسقها المرتبط بالبكسل يولد ملايين من وحدات gaussian من صورة واحدة، مما يحد من استخدامها على الأجهزة المحمولة.

للتغلب على هذه التحديات، أعاد باحثون النظر في تمثيل الصور متعدد الطبقات (Multiplane Image - MPI) الذي يمثل المشاهد باستخدام مجموعة مضغوطة من الطبقات المسطحة لتحقيق تركيب صور فعال. من خلال الاستفادة من التطورات الحديثة في نماذج الأساس البصرية، تم استخدام خرائط النقاط المتوقعة لتهيئة هندسية موثوقة، تليها عملية تحسين تعتمد على التفريق.

كجزء من هذا الابتكار، تم تقديم طريقة جديدة تُعرف بالانتشار ذو الخطوة الواحدة (One-Step Diffusion)، والتي تساهم في كل من تحسين MPI ومعالجة نتائج العرض. بالمقارنة مع الطرق القائمة على تجميع الغاز، كانت هذه الطريقة أسرع بنسبة 30.7% وتستخدم فقط 14.8% من حجم نموذجها، بينما تحقق جودة تركيبات تنافسية في مشاهد العرض الأمامية. هذا التطور يعد بفتح آفاق جديدة في عالم تركيب الصور ويساهم في تطوير حلول عملية وتطبيقات مبتكرة تتناسب مع احتياجات المستخدمين اليوم.