تعد عملية توليد مشهد ثلاثي الأبعاد (3D) على مستوى الشارع من صورة قمر صناعي واحدة من المهام المعقدة في مجال الذكاء الاصطناعي. في الوقت الحالي، توجد طريقتان رئيسيتان: نماذج تحديد الجيوميتريا (geometry-colorization models) التي تركز على الدقة الهندسية لكنها تفتقر إلى التنوع الدلالي، ونماذج قائمة على الوكلاء (proxy-based models) التي تستخدم أنظمة تحويل الصور إلى 3D لتحقيق مشاهد شاملة، ولكنها تعاني من مشكلات في الجيوميتريا.

يلعب الاختلاف الكبير في زوايا الرؤية والإشراف غير المتناسق دورًا أساسيًا في هذه المشكلات. لحل هذه التحديات، تم تقديم Sat3DGen، وهو نموذج يركز على الجيوميتريا بطريقة مبدعة. يُحسن هذا النموذج آلية التعلم من خلال دمج قيود هندسية جديدة مع استراتيجية تدريب تتعلق بالمنظور، مما يساعد على تقليل أخطاء الجيوميتريا بشكل ملحوظ.

عند اختبار Sat3DGen على مجموعة جديدة من البيانات، تمكن النموذج من تحسين الجيوميتريا بشكل ملحوظ، مما قلل من متوسط الخطأ الجيودي (RMSE) من 6.76 متر إلى 5.20 متر، كما أدى التحسين في الجيوميتريا إلى تعزيز الواقعية، حيث انخفض مؤشر فرّيشه في إنشاء (FID) من حوالي 40 إلى 19.

تظهر مرونة الأصول ثلاثية الأبعاد عالية الجودة الناتجة عن هذا النموذج في تطبيقات متعددة، مثل تحويل الخرائط الدلالية إلى مشاهد ثلاثية الأبعاد، وتوليد فيديوهات متعددة الكاميرات، وتقدير نموذج السطح الرقمي (Digital Surface Model) من صورة واحدة بدون إشراف.

لمن يرغب في استكشاف الكود والتطبيقات الأخرى، تم إصدار كود النموذج على منصة GitHub.