في عالم الذكاء الاصطناعي الذي يتطور بسرعة، يقدم مشروع EgoSim خطوة هامة نحو تحسين كيفية محاكاة التفاعلات الجسدية في بيئات ثلاثية الأبعاد. هذا المحاكي يعمل بنظام حلقة مغلقة (closed-loop)، حيث يمكنه إنتاج مقاطع فيديو تفاعلية تمتاز بالتناسق المكاني وتحديث حالة المشهد ثلاثي الأبعاد بشكل مستمر.

تواجه المحاكيات الحالية المركزية على الذات (egocentric simulators) تحديات كبيرة، إما بسبب عدم إمكانية توضيح التأسيس ثلاثي الأبعاد مما يؤدي إلى انزلاق هيكلي عند تغييرات وجهات النظر، أو اعتبار المشهد ثابتًا مما يمنع تحديث حالات العالم عبر تفاعلات متعددة المراحل.

EgoSim يتجاوز هذه القيود المزعجة عن طريق نمذجة المشاهد ثلاثية الأبعاد كحالات عالم قابلة للتحديث. ويتم توليد التفاعلات الجسدية عبر نموذج محاكاة يراعي الهندسة والحركة (Geometry-action-aware Observation Simulation)، مع الحفاظ على الاتساق المكاني من خلال وحدة تحديث الحالة المعروفة بتفاعلها (Interaction-aware State Updating module).

للتغلب على عقبات جمع البيانات الحرجة، صُممت EgoSim لتعمل عبر عملية قابلة للتوسع تستخرج سحب النقاط الثابتة، مسارات الكاميرا، وإجراءات الوجود (embodiment actions) من مقاطع الفيديو الأحادية الكبيرة في بيئات حية. ومع تقديم نظام التقاط EgoCap، يمكن جمع البيانات الحقيقية بتكاليف منخفضة باستخدام الهواتف الذكية غير المعايرة.

تظهر التجارب الواسعة أن EgoSim تتفوق بشكل ملحوظ على الطرق الحالية من حيث جودة الصور والاتساق المكاني، فضلاً عن قدرتها على التعميم في المشاهد المعقدة والتفاعلات المرنة في البيئات الحية، دعمًا أيضًا لنقل التجسيد (cross-embodiment transfer) إلى المناورة الروبوتية.

يتوقع إطلاق الأكواد ومجموعات البيانات قريبًا. يمكنكم زيارة صفحة المشروع لمزيد من التفاصيل عبر ego-simulator.github.io.

إذا كنت من عشاق التكنولوجيا والتطورات الجديدة في الذكاء الاصطناعي، فما رأيك في هذا الابتكار؟ شاركونا آرائكم في التعليقات!