في عالم التطورات السريعة للذكاء الاصطناعي، يُقدم ديوان DeWorldSG نظاماً مبتكراً لتوليد رسوم بيانية دلالية ثلاثية الأبعاد (3D Semantic Scene Graphs) من تسلسلات الصور RGB-D. يواجه النظام التقليدي صعوبات في إنشاء رسوم بيانية موثوقة، غالباً بسبب عدم استقرار التمثيلات الثلاثية الأبعاد للأشياء والعلاقات المفقودة الناتجة عن الاستدلال الإطاري.

يُعالج DeWorldSG هذه القضايا من خلال تقدير التوزيعات الجيومترية ثلاثية الأبعاد Gaussian على مستوى الكائنات، وذلك عبر تصفية مُوجهة بالعمق، مما يمثل كل كائن كنقطة ثلاثية الأبعاد احتمالية بدلاً من نقطة واحدة فقط.

علاوة على ذلك، يُخفف هذا الإطار شح العلاقات الناتج عن الاستدلال الإطاري عن طريق تجميع الأدلة بين الكائنات عبر الزمن، وتنقيح العلاقات باستخدام أولويات سياقية مستمدة من نموذج عالمي (V-JEPA 2).

تظهر التجارب التي أُجريت على مجموعات بيانات 3DSSG وReplicaSSG الأداء الرائد في كل من التنبؤ بالكائنات والعلاقات، مع إنتاج هياكل مشهد زمنية متسقة. ومن المثير للاهتمام أن طريقتنا تحسن نسبة استرجاع الثلاثيات بنسبة 77.4% ونسبة استرجاع العلاقات بنسبة 23.2% مقارنةً بالطرق السابقة.

يمهد DeWorldSG الطريق لتطبيقات متقدمة في مجالات الروبوتات والتفاعل مع الواقع المعزز، حيث يُسهم في تحسين دقة وموثوقية العمليات.

هناك الكثير من الآمال المعقودة على الاستخدامات المستقبلية لهذا الإطار المبتكر. ما هي أفكاركم حول هذا التطور المثير في تكنولوجيا الرسوم البيانية الدلالية؟