في عالم تتبع الأجسام المرئية، لا يزال استخدام الكاميرات التقليدية المعتمدة على RGB يعاني من صعوبات في ظروف الإضاءة المنخفضة أو عند التعامل مع الحركة السريعة. لكن، ماذا لو كانت هناك خيارات أخرى؟ هنا يتألق استخدام كاميرات الأحداث (Event Cameras) التي تلتقط تغييرات السطوع في الوقت الحقيقي، مما يوفر نطاق ديناميكي عالي ودقة زمنية لا تضاهى.
بالرغم من التقدم الكبير، فإن العديد من أنظمة التتبع المعتمدة على الأحداث تفتقر إلى استغلال الخصائص الفريدة لبيانات الأحداث، مثل الفراغ المكاني (Spatial Sparsity) وكثافة الوقت (Temporal Density)، حيث تميل إلى الاعتماد على استراتيجيات ثابتة لجمع البيانات في أطر زمنية واحدة، وهو ما يظهر بوضوح كخيار غير مثالي في ظل ديناميكيات الحركة المتغيرة.
في بحثنا الجديد، نقدم إطار عمل لتتبع الأجسام يعتمد على الكثافة، حيث يعطي نموذجنا القدرة على معاملة الاختلافات في كثافة الأحداث عبر مقاييس زمنية متعددة. تتضمن هذه الطريقة دمج مناطق بحث ذات كثافات متفاوتة - Sparse و Medium-density و Dense - في هيكل ثلاثي المراحل لنموذج Vision Transformer.
علاوة على ذلك، قمنا بتطوير وحدة Mixture-of-Experts التي تعزز من التخصص بين الخبراء للطريقة الأكثر ملاءمة لكل نمط من أنماط الكثافة، مع تصميم استراتيجية تفكير ديناميكية لضبط عمق الاستدلال وفقًا لصعوبة التتبع.
تظهر التجارب الواسعة على مجموعات بيانات FE240hz و COESOT و EventVOT أن نموذجنا يحقق توازنًا مثاليًا بين دقة التتبع وكفاءة الحوسبة. ولمن يهمه الأمر، يمكن للراغبين الاطلاع على شفرة المصدر على GitHub عبر [رابط GitHub](https://github.com/Event-AHU/OpenEvTracking).
إذا كنت مهتمًا بالتكنولوجيا الجديدة وتأثيرها على مستقبل التتبع المرئي، فلا تتردد في التعليق بملاحظاتك وآرائك حول هذا التطور! كيف تعتقد أن هذه التكنولوجيا ستغير طريقة تعاملنا مع البيانات المرئية؟
تحويل ثوري في تتبع الأجسام المرئية: تقنية Mixture-of-Experts لنموذج Transformer المتكيف مع الكثافة
استعرض الباحثون إطار عمل مبتكر لتتبع الأجسام المرئية عبر كاميرات الأحداث، مما يسهم في تحسين دقة التتبع في ظروف الإضاءة المنخفضة والحركة السريعة. يعتمد هذا النموذج على تقنية Mixture-of-Experts لتحقيق أداء متفوق في تتبع الأجسام.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
