في عالم الرؤية الحاسوبية، يعتبر استعادة هندسة ثلاثية الأبعاد (3D) ومظهر الصور من مشاهد متعددة الزوايا بدون أوضاع محددة أحد التحديات الأساسية. لذا، أطلق الباحثون حديثًا نموذج IVGT، وهو اختصار لـ "Implicit Visual Geometry Transformer". يهدف هذا النموذج إلى تقديم تحول ثوري في كيفية فهم المشاهد ثلاثية الأبعاد.
تعتمد معظم نماذج الجيومتري البصرية التقليدية على استنتاج هندسة واضحة من خلال خرائط النقاط المتوافقة مع البكسل، مما يؤدي غالبًا إلى مشاكل تتعلق بالتكرار واستمرارية الهندسة المحدودة. وعكس ذلك، يتيح نموذج IVGT اعتماد نموذج ضمني لهندسة مستمرة ومتسقة، مما يوفر القدرة على استعادة بنية المشهد بدون الحاجة لوضع الصور المحدد.
تعتمد أساليب IVGT على التعلم من نظام إحداثي قياسي، مما يدعم استعلامات مكانية مستمرة في أي موقع ثلاثي الأبعاد. يتم استرجاع الميزات المحلية للتنبؤ بالقيم والألوان باستخدام أجهزة ترميز خفيفة. هذا يتيح استخراج سطح هندسي متسق، مما يسهل تقديم صور RGB، خرائط عمق، وخرائط اتجاه السطح من نقاط عرض عشوائية.
تم تدريب النموذج عبر تحسين متعدد البيانات، مستخدمًا إشراف ثنائي الأبعاد وانتظام هندسي ثلاثي الأبعاد. بفضل هذه الأساليب، أظهر IVGT توافقًا عاليًا في معالجة المشاهد وتحقيق أداء متفوق في مهام متعددة، تشمل إعادة بناء الشبكات متعددة الأبعاد، توليد مشاهد جديدة، وتقدير مواقع الكاميرا.
IVGT يمثل نقلة نوعية في المجال، حيث يُعزز من قدرات الرؤية الحاسوبية، ويقدم طرقًا جديدة لفهم البيئة المحيطة بنا.
IVGT: ثورة في تمثيل المشاهد الثلاثية الأبعاد باستخدام تحويل هندسي بصري ضمني
IVGT هو نموذج مبتكر يستخدم لتحويل هندسي بصري ضمني، مما يتيح استعادة هندسة ثلاثية الأبعاد مريحة ودقيقة من صور متعددة الزوايا بدون الحاجة إلى وضع محدد. يحقق هذا النظام أداءً متفوقاً في توظيف الصور بأساليب جديدة ومثيرة لدراسة المشاهد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
