في عالم يتجه نحو القيادة الذاتية، تواجه تقنيات الإدراك تحديات عدة، خاصة في المشاهد المتنوعة من طرق سريعة فارغة إلى تقاطعات مزدحمة. تعتمد النماذج الحالية على ميزانية معالجة ثابتة لكل إطار، مما يجعلها تستهلك الموارد دون الحاجة في المشاهد البسيطة، بينما تعجز عن التعامل مع المشاهد الأكثر تعقيدًا.

تسهم النماذج القائمة على التفاعل، مثل نماذج Transformer، في تفاقم هذه المشكلة بسبب زيادة تعقيد الحساب عند زيادة عدد العناصر المكتشفة، حيث يتم التعامل مع كل إطار على حدة مما يؤدي إلى فقدان المعلومات عن العناصر الم occluded مباشرة.

لذا، نقدم لكم تقنية Enhanced HOPE، وهي بنية إدراكية متقدمة تقيس التعقيد الهندسي لكل إطار LiDAR باستخدام مُقدّر إحصائي غير مُشرف، مما يسمح بتوجيه البيانات عبر مسارات معالجة شديدة أو عميقة على حسب الحاجة، دون الحاجة إلى تسميات يدوية للمشاهد. ولضمان كفاءة نمذجة التفاعلات، تم استبدال الآلية التقليدية المعتمدة على معالجة الأزواج الرباعية مع شبكة تستند إلى الفضاء الخطي، تقوم بتجميع العناصر القريبة ضمن مجموعات ومعالجتها بشكل مشترك، مما يؤدي إلى توفير موارد إضافية.

تتيح هذه الآلية تخزين معلومات الذاكرة الزمنية بفاعلية، مما يمكّن النظام من الاحتفاظ بالعناصر المكتشَفة سابقًا وقواعد المرور عبر الإطارات، ليستطيع تذكّر العناصر الم occluded حتى بعد ثوانٍ من اختفائها عن الأنظار. وفقًا لمعايير nuScenes وCARLA، استطاعت Enhanced HOPE تقليص الفترات الزمنية بنسبة 38% في المشاهد البسيطة دون فقدان دقة الأداء، كما حققت زيادة في المتوسط لنقاط الدقة بمقدار 2.7 في السيناريوهات النادرة، ونجحت في تتبع العناصر خلال مرحلات occlusion تتجاوز 5 ثوان، حيث فشلت جميع النماذج السابقة.