في عالم الرؤية الحاسوبية والرسوميات، غالبًا ما كان يتم التعامل مع استرجاع معلمات الكاميرا من الصور ورسم المشاهد من زوايا جديدة كمهام منفصلة. لكن، هذا الفصل يظهر عيوبه عندما تكون تغطية الصورة ضعيفة أو عندما تكون الأوضاع غير واضحة، حيث تعتمد كل مهمة على نتائج الأخرى. هنا يأتي دور نموذج 'رؤوس الأشعة' (Rays as Pixels)، وهو نموذج مبتكر يُعرف باسم نموذج انتشار الفيديو (Video Diffusion Model) الذي يتعلم توزيعًا مشتركًا يغطي كلا من مقاطع الفيديو ومسارات الكاميرا.

يعد هذا النموذج الأول من نوعه في توقع أوضاع الكاميرا وإجراء توليد الفيديو المتحكم فيه عبر الكاميرا داخل إطار عمل واحد. من خلال تمثيل كل كاميرا كأشعة كثيفة (raxels) متجاوبة مع كل بكسل، تتواجد ضمن نفس الفضاء الكامن لمقاطع الفيديو، يتم تقليل الضوضاء لكليهما بشكل مشترك من خلال آلية انتباه مستقل متبادل.

يتعامل نموذج المدرب بفعالية مع ثلاث مهام أساسية: توقع مسارات الكاميرا من الفيديو، توليد الفيديو من صور المدخلات على طول مسار معين، ودمج الفيديو والمسار بطريقة مشتركة من الصور المدخلة. تم تقييم النموذج من خلال تحقيقات حول تقدير الوضع وتوليد الفيديو المتحكم فيه بواسطة الكاميرا. بالإضافة إلى ذلك، تم تقديم اختبار تكرار مغلق يظهر أن الأوضاع المتوقعة من النموذج وما ينتج عنه من تصويرات تتوافق بشكل كبير. نتائج الدراسة تثبت أن تمثيل الكاميرات في فضاء كامن مشترك مع الفيديو أكثر كفاءة بشكل ملحوظ.

بالنظر إلى هذه الابتكارات والتقدم الكبير في التقنيات، قد يشكل نموذج 'رؤوس الأشعة' نقطة انطلاق ثورية للعديد من التطبيقات العملية في مجالات الرؤية الحاسوبية.