في عالم الذكاء الاصطناعي، يشكل التعرف على الأفعال من خلال عدد قليل من عينات البيانات (Few-shot Action Recognition) تحديًا كبيرًا، حيث يتطلب الأمر من النماذج القدرة على تعميم التعرف على فئات أفعال جديدة من خلال عدد قليل فقط من العينات المصنفة. على الرغم من التقدم المحرز مع نماذج الرؤية واللغة، إلا أن النماذج الحالية تعاني من عدم توافق دلالي وزمني، حيث تفشل المحفزات النصية الثابتة في التقاط الإشارات البصرية الحاسمة التي تظهر بشكل متقطع عبر تسلسلات الصور.
للتغلب على هذه التحديات، تم تقديم نظام STAR (Semantic Temporal Adaptive Representation Learning) كإطار موحد، يشتمل على مكون للتوافق الدلالي ومكون للوعي الزمني، مما يعمل على سد الفجوات بين الدلالة والزمان، ونقل قدرة نمذجة التسلسل من Mamba إلى التعرف على الأفعال.
يشمل مكون التوافق الدلالي آلية انتباه دلالي زمني (Temporal Semantic Attention - TSA)، والتي تقوم بإجراء توافق بين النصوص والإطارات عميق على مستوى الإطار، مما يضمن الاتساق الدلالي والزمني المفرط. وعلاوة على ذلك، يتضمن المكون الزمني مصفِّح النماذج الزمنية الدلالية (Semantic Temporal Prototype Refiner - STPR) الذي يدمج كتل Mamba المدعومة دلاليًا مع أخذ عينات زمنية متعددة التردد، مما يؤدي إلى نماذج دلالية متوافقة تعزز من دقة التمييز والاتساق الزمني.
تتضمن النتائج التجريبية على خمسة معايير للتعرف على الأفعال تحت إشراف محدود (FSAR) إثبات تفوق نظام STAR على الطرق الحديثة. على سبيل المثال، حقق STAR زيادة تصل إلى 8.1% و6.7% في مجموعتي SSv2-Full وSSv2-Small ضمن إعداد 1-shot، و7.3% على HMDB51، مما يثبت فعاليته تحت إشراف محدود. التعليمات البرمجية متاحة عبر هذا الرابط [https://github.com/HongliLiu1/STAR-main].
لذلك، ما رأيكم في هذه المقاربة الجديدة؟ هل تظنون أن STAR يمكن أن يُحدث فعلاً فرقًا في طريقة التعرف على الأفعال؟ شاركونا آراءكم في التعليقات!
نظام STAR: ثورة في التعرف على الأفعال من خلال تعلم التمثيل الزمني الدلالي
نظام STAR يمثل خطوة مبتكرة في مجال التعرف على الأفعال، حيث يجمع بين الدلالات الساكنة والحركة الزمنية لتحسين دقة النماذج في فترات تدريب محدودة. النتائج تظهر تفوقه على الطرق السابقة بدليل تجارب قوية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
