في هذا السياق، يبرز نموذج SkillMoV كحل إبداعي وفعّال لتقدير الكفاءات من مقاطع الفيديو المتزامنة ذات الزوايا المتعددة. يعتمد هذا الإطار الجديد على مفهوم جديد يُعرف بـ “Mixture-of-View Projector” (MoVP)، والذي يعدل طريقة عمل نماذج الخبراء بحيث يتناسب مع مزايا زوايا الكاميرات المختلفة.
عمل SkillMoV">مراحل عمل SkillMoV
يتكون SkillMoV من أربع مراحل رئيسية:
1. **الموزع متعدد الزوايا (Mixture-of-View soft router)**: يتضمن 12 خبيراً مكوناً من شبكة عصبية متعددة الطبقات (MLP) تتعلم تفضيلات الخبراء وفقًا للزاوية دون الحاجة لمراقبة هوية الكاميرا.
2. **الانتباه عبر الزوايا المتقاطعة (cross-view attention)**: لتوحيد الكاميرات المتزامنة وتعزيز التجانس في الملاحظات.
3. **التثبيت النموذجي القابل للتعلم (learnable prototype anchoring)**: حيث يتم تمثيل البيانات بناءً على مرجعيات على مستوى الفئات.
4. **Projection مشروطة بالنموذج (prototype-conditioned gated projection)**: لتوليد التمثيل النهائي للكفاءة.
النتائج والمقارنة
تم اختبار SkillMoV على مجموعة بيانات EgoExo4D عبر ستة مجالات للكفاءة مع ثلاثة تكوينات مختلفة للزوايا: Ego، Exos، وEgo+Exos. وقد أظهرت النتائج أن SkillMoV يحقق دقة تصل إلى 50.17% في إعداد Exos، متجاوزًا أقوى النتائج المسجلة بـ3.57%.
علاوة على ذلك، فإن SkillMoV يُظهر فعالية ملحوظة من حيث الموارد، حيث يتطلب فقط 23.32% من معالمه للتدريب، مما يجعله مثالياً للاستخدام في التطبيقات العملية.
إن SkillMoV يعد حقًا نقطة تحول في كيفية تقييم المهارات عبر الفيديو، مما يفتح الأبواب أمام فرص جديدة في التعليم والتدريب. كيف ترى تأثير هذا النموذج على مجالاتك؟ شاركنا برأيك!
