في عالم [الرؤية](/tag/الرؤية) الحاسوبية، يعتبر استعادة [هندسة](/tag/هندسة) ثلاثية الأبعاد (3D) ومظهر [الصور](/tag/الصور) من مشاهد متعددة الزوايا بدون أوضاع محددة أحد التحديات الأساسية. لذا، أطلق الباحثون حديثًا [نموذج](/tag/نموذج) IVGT، وهو اختصار لـ "Implicit Visual [Geometry](/tag/geometry) [Transformer](/tag/transformer)". يهدف هذا النموذج إلى تقديم [تحول](/tag/تحول) ثوري في كيفية [فهم المشاهد](/tag/[فهم](/tag/فهم)-المشاهد) ثلاثية الأبعاد.
تعتمد معظم [نماذج](/tag/نماذج) الجيومتري البصرية التقليدية على [استنتاج](/tag/استنتاج) [هندسة](/tag/هندسة) واضحة من خلال [خرائط](/tag/خرائط) النقاط المتوافقة مع البكسل، مما يؤدي غالبًا إلى مشاكل تتعلق بالتكرار واستمرارية [الهندسة](/tag/الهندسة) المحدودة. وعكس ذلك، يتيح [نموذج](/tag/نموذج) [IVGT](/tag/ivgt) اعتماد [نموذج](/tag/نموذج) ضمني لهندسة مستمرة ومتسقة، مما يوفر القدرة على استعادة بنية المشهد بدون الحاجة لوضع [الصور](/tag/الصور) المحدد.
تعتمد [أساليب](/tag/أساليب) [IVGT](/tag/ivgt) على [التعلم](/tag/التعلم) من نظام إحداثي قياسي، مما يدعم [استعلامات](/tag/استعلامات) مكانية مستمرة في أي موقع ثلاثي الأبعاد. يتم [استرجاع](/tag/استرجاع) الميزات المحلية للتنبؤ بالقيم والألوان باستخدام [أجهزة](/tag/أجهزة) [ترميز](/tag/ترميز) خفيفة. هذا يتيح استخراج سطح هندسي متسق، مما يسهل تقديم [صور](/tag/صور) RGB، [خرائط](/tag/خرائط) عمق، وخرائط اتجاه السطح من نقاط عرض عشوائية.
تم [تدريب النموذج](/tag/[تدريب](/tag/تدريب)-النموذج) [عبر](/tag/عبر) [تحسين](/tag/تحسين) متعدد البيانات، مستخدمًا إشراف ثنائي الأبعاد وانتظام هندسي ثلاثي الأبعاد. بفضل هذه الأساليب، أظهر [IVGT](/tag/ivgt) توافقًا عاليًا في معالجة المشاهد وتحقيق [أداء](/tag/أداء) متفوق في مهام متعددة، تشمل إعادة [بناء](/tag/بناء) [الشبكات](/tag/الشبكات) متعددة الأبعاد، [توليد](/tag/توليد) مشاهد جديدة، وتقدير مواقع الكاميرا.
[IVGT](/tag/ivgt) يمثل نقلة نوعية في المجال، حيث يُعزز من قدرات [الرؤية](/tag/الرؤية) الحاسوبية، ويقدم طرقًا جديدة لفهم [البيئة](/tag/البيئة) المحيطة بنا.
IVGT: ثورة في تمثيل المشاهد الثلاثية الأبعاد باستخدام تحويل هندسي بصري ضمني
IVGT هو نموذج مبتكر يستخدم لتحويل هندسي بصري ضمني، مما يتيح استعادة هندسة ثلاثية الأبعاد مريحة ودقيقة من صور متعددة الزوايا بدون الحاجة إلى وضع محدد. يحقق هذا النظام أداءً متفوقاً في توظيف الصور بأساليب جديدة ومثيرة لدراسة المشاهد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
