في عالم الذكاء الاصطناعي، تعتبر نماذج الفيديو من الأدوات المهمة التي تستخدم لفهم المعلومات المرئية. لكن السؤال الذي يطرح نفسه هو: هل يمكن لهذه النماذج أن تفهم الأساسيات الفيزيائية بديهياً؟ في دراسة حديثة تم نشرها في arXiv، خُصصت جهود كبيرة لاستكشاف هذا السؤال باستخدام تحليل يستند إلى تقييمات مختلفة.

لقد قام الباحثون بدراسة ثلاث نماذج أساسية وهي: نماذج التضمين الجانبي التنبؤية (V-JEPA)، نماذج إعادة البناء الم masked (VideoMAE)، ومولد الفيديو المستند إلى الانتشار (LTX-Video). نتائجهما تشير إلى أن نموذج V-JEPA يتفوق بشكل ملحوظ عبر مجموعة متنوعة من المعايير، خصوصاً عند تطبيق اختبارات تركز على الديناميات الزمنية. بينما أظهر نموذج VideoMAE تنافساً جيداً، عُرف نموذج LTX-Video بأنه يتيح إشارة أضعف ولكن غير تافهة.

تُظهر تحليلات الطبقات أن المعلومات المتعلقة بالفيزياء تكون أضعف في الطبقات الأولى، ثم تزداد في الوصول ونضوجها في الطبقات الوسطى إلى المتأخرة. وعندما تم تغيير ترتيب الإطارات، لوحظ أن الأداء انخفض بشكل كبير، مما يشير إلى أهمية تسلسل المعلومات في تحصيل المعرفة الفيزيائية. هذه النتائج تشير إلى أن المعرفة الفيزيائية البديهية تظهر بشكل مستمر في تمثيلات الفيديو المدربة مسبقًا، لكن سهولة الوصول إليها تعتمد بشكل حاسم على نموذج التدريب وعمق التمثيل وآلية القراءة.

في ضوء هذه النتائج المُثيرة، يبدو أن نماذج الفيديو ليست مجرد أدوات للعرض، بل تحمل في طياتها فهمًا معقدًا لديناميات العالم الفيزيائي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!