في عالم الذكاء الاصطناعي، يعد فهم الأبعاد الهندسية ثلاثية الأبعاد تحدياً مثيراً. غالباً ما تتجاهل نماذج العمق الأحادي (Monocular Depth Estimation) حقيقة أن شعاع كاميرا واحد قد يمر عبر عدة أسطح مرئية. هذه المشكلة تزداد تعقيداً في المشاهد الشفافة، حيث يمكن لنفس الشعاع أن يعبر الزجاج الأمامي ليظهر ما خلفه، مما يجعل التقدير المبني على الطول يبدو كبيانات وصياغة تعليمات بدلاً من تمثيل حقيقتي.
في هذا السياق، ظهر ابتكار جديد يُعرف باسم MultiDepth-3k (MD-3k)، الذي يُعد معياراً عظيماً لتقدير تفضيلات الطول المتعدد وقياس دقة العلاقات المكانية المتعددة الطبقات (ML-SRA). من خلال هذا المعيار، تمكن الباحثون من إظهار أن أفضل نماذج العمق الأساسية (Depth Foundation Models) تظهر تفضيلات طبقية متنوعة بالرغم من استخدام مدخلات صور RGB المعيارية.
ولكن ليس هذا فحسب، فقد أظهر البحث أيضاً أن تقنية Laplacian Visual Prompting (LVP)، وهي تحويل طيفي دون تدريب، يمكن أن تؤثر بشكل كبير في النتيجة المعروضة للعديد من النماذج المجمدة، حيث حقق زوج RGB/LVP الأقوى، DAv2-L، نسبة 75.5% في دقة ML-SRA.
تشير هذه النتائج إلى أن نماذج العمق الأساسية قد تعكس فرضيات هندسية إضافية قد تُهمل في التقديرات القياسية. تدعو هذه الدراسة المجتمع الأكاديمي والصناعي إلى إعادة التفكير في إشراف وتقييم العمق عبر عدسة الوعي باللبس، حيث يتم اعتبار تعدد التفسيرات الثلاثية الأبعاد كهيكل هندسي يجب قياسه والحفاظ عليه.
كشف عمق هندسي مزدوج: إعادة تقييم نماذج العمق الأحادي
يكشف البحث الجديد عن كيفية تقييم نماذج العمق الأحادي للأبعاد الهندسية بشكل يفوق التوقعات. يقدم الابتكار MultiDepth-3k كمعيار رئيسي لقياس تفضيلات الطول المتعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
