تتطلب عملية الكشف عن الأجسام الصغيرة في صور الطائرات بدون طيار (UAV) الحفاظ على الأدلة المحلية الضعيفة، بينما نستخدم السياق الأوسع لفصل الأهداف الصغيرة عن الخلفيات المزدحمة. بينما تحسن الأساليب الحالية لدمج المقاييس من تجميع الميزات، فإنها غالبًا ما تضيف عبئًا حسابيًا أو تُشوش على التفاصيل الدقيقة خلال الدمج عبر المقاييس.

التحدي الرئيسي يكمن في تحقيق توازن بين الحفاظ على الأهداف ذات الإشارة المنخفضة، وقمع الفوضى، وتبادل السياق عبر المقاييس بكفاءة. للتغلب على هذا التحدي، نقدم استراتيجية دمج الميزات العالمية متعددة المقاييس (MGDFIS)، وهي استراتيجية دمج ميزات على مستوى العنق تجمع بين تبادل السياق العالمي، واسترجاع التفاصيل المحلية، وإعادة ضبط البكسل على مستوى الخلفية والأمام.

تدمج MGDFIS ثلاثة وحدات منسقة: FusionLock-TSS Attention لتثبيت الاستجابات الطيفية-المكانية، وGlobal-detail Integration لدمج المزيج طويل المدى مع التقاط التفاصيل المحلية، وDynamic Pixel Attention لإعادة وزن المناطق الأمامية المدمجة.

في الإعدادات المنضبطة لـ VisDrone، حقق نموذج YOLO26m مع MGDFIS تحسنًا في AP50:95 من 25.7 إلى 30.2، وAP50 من 37.2 إلى 44.2 مقارنة بالأساس YOLO26m، مع استخدام 96.1 GFLOPs. التقنيات الجديدة أيضًا حققت وفي تقييمات معينة بيانات أخرى نتائج مذهلة، مثل 38.9 AP50 و21.9 AP50:95 على UAVDT و97.4 AP50 على CARPK.

لزيارة شفرة المصدر الخاصة بالاستراتيجية الجديدة، يمكنك زيارة رابط MGDFIS على GitHub.

أشار العلماء إلى أن MGDFIS تمثل نقلة نوعية في مجال تقنية الكشف عن الأجسام الصغيرة، ما يجعلها واحدة من أهم التطورات المستقبلية في هذا المجال. فمن خلال دمج الأدلة المحلية والسياقات العالمية، فتحت MGDFIS آفاقًا جديدة في طرق التعامل مع بيانات UAV.

ما رأيكم في هذه التقنية المبتكرة؟ شاركونا آراءكم في التعليقات!