في عالم كشف الأجسام ثلاثية الأبعاد، تعتبر مرحلة ما بعد المعالجة أمرًا حيويًا، خاصة في الأنظمة القائمة على LiDAR، حيث يتوجب تصفية الاقتراحات الكثيفة والمتداخلة لضمان فهم صحيح وموثوق للبيئة. قدمت دراسة جديدة حلاً مبتكرًا عبر تقديم وحدتين للتصفية تعتمد على التعلم، لتحل محل طريقة التصفية التقليدية Non-Maximum Suppression (NMS).

تعتمد الوحدة الأولى المعروفة باسم D2D-Rescore على انتباه من نوع Transformer بين الاكتشافات، مما يمكّنها من تقييم كل كائن بناءً على العلاقات التي تربطه بكائنات أخرى. بينما تُعيد الوحدة الثانية، GossipNet3D، استخدام مفهوم GossipNet ثنائي الأبعاد لتطبيقه على الأبعاد الثلاثية عن طريق تمرير الرسائل المحلية، مع التركيز على الرؤية من الأعلى.

تضمن استراتيجيات المطابقة المدروسة والمعتمدة على المعايير توافق التدريب والسلوك في التقييم، مما يُحسن الأداء العام في عملية الكشف. أظهرت النتائج أن كلا الطريقتين تعززان متوسط الدقة (mAP) ودرجة الكشف على nuScenes (NDS) وجودة الإيجابيات الحقيقية، خصوصًا مع الفئات الصغيرة والنادرة، كل ذلك مع تكلفة حسابية منخفضة.

تظهر هذه النتائج أن التصفية المعتمدة على التعلم على مستوى الاكتشاف يمكن أن تعزز موثوقية كواشف الأجسام ثلاثية الأبعاد دون الحاجة لتعديل الشبكات الأساسية، مما يوفر بديلًا علميًا للتصفية التقليدية. يمكن الحصول على الكود المستخدم في البحث عبر رابط الكود.

ما رأيكم في هذه التطورات في مجال كشف الأجسام ثلاثية الأبعاد؟ شاركونا آرائكم في التعليقات!