في عالم الذكاء الاصطناعي، يمثل الحصول على بيانات مشاهد ثلاثية الأبعاد (3D) مشكلة كبيرة، حيث إن هذه البيانات مصنفة باهظة الثمن ونادرة. في المقابل، تتوافر مقاطع فيديو غير مسمّاة بكثرة على الإنترنت. يتمحور البحث الجديد حول كيفية الاستفادة من هذه البيانات لتوليد بيانات تدريبية تلقائية، مما يدعم نماذج التعلم الآلي لفهم المشاهد ثلاثية الأبعاد بجانب البيانات المصنّفة.

تشرع هذه الدراسة في تحديد وتحليل نقاط الضعف في عملية توليد البيانات المؤتمتة، متطرقةً إلى العوامل الأساسية التي تؤثر على كفاءة وفاعلية التعلم من بيانات غير مصنّفة. تم التحقق من هذه الطريقة من خلال تقييم الأداء عبر مهام متنوعة، تتراوح من اكتشاف الكائنات ثلاثية الأبعاد (3D Object Detection) إلى مهام التفكير العالي مثل الإجابة على الأسئلة المرئية المكانية (Visual Question Answering) والتنقل باللغة المرئية (Vision-Language Navigation).

تشير النتائج إلى أن النماذج التي تم تدريبها باستخدام البيانات التي تم توليدها تُظهر أداءً قوياً في عدم وجود بيانات مصنّفة، وتحقيق تحسن ملموس بعد عملية التعديل. هذا التطور يعكس إمكانية الاستفادة من البيانات المتاحة على الويب كخطوة نحو بناء أنظمة أكثر قدرة على فهم المشاهد.