في عالم [الرؤية](/tag/الرؤية) الحاسوبية، يعتبر استعادة [هندسة](/tag/هندسة) ثلاثية الأبعاد (3D) ومظهر [الصور](/tag/الصور) من مشاهد متعددة الزوايا بدون أوضاع محددة أحد التحديات الأساسية. لذا، أطلق الباحثون حديثًا [نموذج](/tag/نموذج) IVGT، وهو اختصار لـ "Implicit Visual [Geometry](/tag/geometry) [Transformer](/tag/transformer)". يهدف هذا النموذج إلى تقديم [تحول](/tag/تحول) ثوري في كيفية [فهم المشاهد](/tag/[فهم](/tag/فهم)-المشاهد) ثلاثية الأبعاد.

تعتمد معظم [نماذج](/tag/نماذج) الجيومتري البصرية التقليدية على [استنتاج](/tag/استنتاج) [هندسة](/tag/هندسة) واضحة من خلال [خرائط](/tag/خرائط) النقاط المتوافقة مع البكسل، مما يؤدي غالبًا إلى مشاكل تتعلق بالتكرار واستمرارية [الهندسة](/tag/الهندسة) المحدودة. وعكس ذلك، يتيح [نموذج](/tag/نموذج) [IVGT](/tag/ivgt) اعتماد [نموذج](/tag/نموذج) ضمني لهندسة مستمرة ومتسقة، مما يوفر القدرة على استعادة بنية المشهد بدون الحاجة لوضع [الصور](/tag/الصور) المحدد.

تعتمد [أساليب](/tag/أساليب) [IVGT](/tag/ivgt) على [التعلم](/tag/التعلم) من نظام إحداثي قياسي، مما يدعم [استعلامات](/tag/استعلامات) مكانية مستمرة في أي موقع ثلاثي الأبعاد. يتم [استرجاع](/tag/استرجاع) الميزات المحلية للتنبؤ بالقيم والألوان باستخدام [أجهزة](/tag/أجهزة) [ترميز](/tag/ترميز) خفيفة. هذا يتيح استخراج سطح هندسي متسق، مما يسهل تقديم [صور](/tag/صور) RGB، [خرائط](/tag/خرائط) عمق، وخرائط اتجاه السطح من نقاط عرض عشوائية.

تم [تدريب النموذج](/tag/[تدريب](/tag/تدريب)-النموذج) [عبر](/tag/عبر) [تحسين](/tag/تحسين) متعدد البيانات، مستخدمًا إشراف ثنائي الأبعاد وانتظام هندسي ثلاثي الأبعاد. بفضل هذه الأساليب، أظهر [IVGT](/tag/ivgt) توافقًا عاليًا في معالجة المشاهد وتحقيق [أداء](/tag/أداء) متفوق في مهام متعددة، تشمل إعادة [بناء](/tag/بناء) [الشبكات](/tag/الشبكات) متعددة الأبعاد، [توليد](/tag/توليد) مشاهد جديدة، وتقدير مواقع الكاميرا.

[IVGT](/tag/ivgt) يمثل نقلة نوعية في المجال، حيث يُعزز من قدرات [الرؤية](/tag/الرؤية) الحاسوبية، ويقدم طرقًا جديدة لفهم [البيئة](/tag/البيئة) المحيطة بنا.