في عالم الذكاء الاصطناعي، تبرز نماذج انتشار الفيديو (Video Diffusion Models) كمحطة مثيرة تجمع بين الواقع والخيال، حيث تولد مقاطع فيديو نابضة بالحياة ومترابطة زمنياً. لكن هذه النماذج تثير التساؤل حول قدرتها على فهم البنية الفيزيائية للواقع أو ما إذا كانت ببساطة تعيد إنتاج أنماط الحركة التي تعلمتها خلال فترة التدريب.

لفهم هذا الأمر بشكل أفضل، قام الباحثون بدراسة هذه النماذج عبر التحقيق في المسارات الكامنة (Latent Trajectories) التي تتماشى مع مقاطع الفيديو الحقيقية التي تتسم بمصداقية فيزيائية. تم استخدام عملية عكسية تقريبية للتصميم، مما أتاح الوصول إلى حالات النموذج وخرائط الانتباه (Attention Maps) الخاصة به.

من خلال تحليل هذه المسارات المستعادة، توصل الباحثون إلى أن مصداقية فيزيائية يمكن فك شفرتها بشكل خطي من حالات المحولات الزمنية (Diffusion Transformers) بمتوسط دقة يصل إلى 81.27%، متفوقة بشكل ملحوظ على المعايير التقليدية مثل V-JEPA وVideoMAE.

ما يثير الدهشة هو أن هذا الإشارة غائبة عن المدخلات الكامنة لنموذج VAE، ولكنها تظهر داخل المحول القائم على إزالة الضوضاء، على الرغم من عدم تدريب النموذج وفقاً لهدف توقع ذاتي.

تسلط هذه النتائج الضوء على إمكانية ظهور تمثيلات ذات معنى فيزيائي كنتيجة ثانوية لعملية إزالة الضوضاء التوليدية، مما يفتح آفاقاً جديدة لفهم كيفية عمل هذه الأنظمة المتقدمة.