في عالم الذكاء الاصطناعي، تُعتبر نماذج الفيديو العالمية خطوة أساسية نحو تحقيق تجارب غامرة في الميتافيرس (Metaverse)، ولكن معظم التطبيقات الحالية تعاني من قيودها التي تفرضها المنظور الفردي. لذا، جاء فريق من الباحثين بمبادرة ميتا وورلد (MetaWorld) لتوسيع نطاق هذه النماذج لتشمل عدة وكلاء عبر بيانات فيديو قائمة على وجهة نظر واحدة.

من أبرز التحديات التي تم التعامل معها عبر ميتا وورلد هي ندرة البيانات، حيث تُعتبر التسجيلات المتعددة المنظورات باهظة الثمن وصعبة الجمع في سيناريوهات عامة. بالإضافة إلى ذلك، هناك حاجة لتماثل الحالة الموجودة في العالم لضمان تطور الأحداث والبيئات الفيزيائية بشكل متسق.

قدمت ميتا وورلد الحلول التالية لمواجهة هذه التحديات:

1. **توسيع حالات العالم الأحادي (Monocular World-State Unrolling - MWSU)**: يقوم هذا النظام بشكل صريح بتجزيء مقاطع الفيديو الأحادية إلى حركة الكاميرا وحركة الكائنات المرئية، مما يساهم في استخلاص بيانات الحركة المتزامنة للوكلاء المتعددين داخل فضاء ثلاثي الأبعاد مشترك، دون الحاجة إلى إعدادات كاميرات متعددة.

2. **مولد العالم المعتمد على الموضوع (Subject-Aware World Generator)**: يتيح تقديم محاكاة مدفوعة بالمظهر استنادًا إلى صور تعريفية لكل وكيل، مما يسمح بتحكم بصري دقيق.

3. **تماثل حالة العالم (World-State Alignment)**: عبر آلية انتباه متقاطعة في كل إطار، يُعزز هذا النظام الاتساق الهندسي الساكن والديناميكي بين المناظير المختلفة.

أمثلة متعددة أثبتت أن ميتا وورلد تجمع بين الاتساق عبر المناظير والتميز الهندسي مما يُشكّل نموذجاً قابلاً للتوسع قائمًا على الفيزياء لنمذجة الفيديو العالمي متعدد الوكلاء. تتيح هذه التقنية الجديدة عوالم رقمية غامرة وتحسين تجارب المستخدم في الميتافيرس.

ماذا تعتقدون عن إمكانات هذا الابتكار؟ شاركونا آراءكم في التعليقات!