في عالم الذكاء الاصطناعي، تبرز نماذج انتشار الفيديو (Video Diffusion Models) كمحطة مثيرة تجمع بين الواقع والخيال، حيث تولد مقاطع فيديو نابضة بالحياة ومترابطة زمنياً. لكن هذه النماذج تثير التساؤل حول قدرتها على فهم البنية الفيزيائية للواقع أو ما إذا كانت ببساطة تعيد إنتاج أنماط الحركة التي تعلمتها خلال فترة التدريب.
لفهم هذا الأمر بشكل أفضل، قام الباحثون بدراسة هذه النماذج عبر التحقيق في المسارات الكامنة (Latent Trajectories) التي تتماشى مع مقاطع الفيديو الحقيقية التي تتسم بمصداقية فيزيائية. تم استخدام عملية عكسية تقريبية للتصميم، مما أتاح الوصول إلى حالات النموذج وخرائط الانتباه (Attention Maps) الخاصة به.
من خلال تحليل هذه المسارات المستعادة، توصل الباحثون إلى أن مصداقية فيزيائية يمكن فك شفرتها بشكل خطي من حالات المحولات الزمنية (Diffusion Transformers) بمتوسط دقة يصل إلى 81.27%، متفوقة بشكل ملحوظ على المعايير التقليدية مثل V-JEPA وVideoMAE.
ما يثير الدهشة هو أن هذا الإشارة غائبة عن المدخلات الكامنة لنموذج VAE، ولكنها تظهر داخل المحول القائم على إزالة الضوضاء، على الرغم من عدم تدريب النموذج وفقاً لهدف توقع ذاتي.
تسلط هذه النتائج الضوء على إمكانية ظهور تمثيلات ذات معنى فيزيائي كنتيجة ثانوية لعملية إزالة الضوضاء التوليدية، مما يفتح آفاقاً جديدة لفهم كيفية عمل هذه الأنظمة المتقدمة.
يد الفيزياء الخفية: كيف تعرف نماذج انتشار الفيديو أكثر مما تظهره
تقدم نماذج انتشار الفيديو الحديثة قدرات مدهشة في إنتاج مقاطع فيديو واقعية وذات تماسك زمني. لكن السؤال يبقى: هل تعكس هذه النماذج البنية الفيزيائية أم تعتمد فقط على أنماط الحركة المتعلمة؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
