استراتيجية جديدة لاكتشاف الأفعال بدقة: كيف تحقق الطائرات الروبوتية تقدماً في التعرف على الأفعال الذاتي
تمثل استراتيجية "قسم، ت deliberation، قرّر" ثورة في التعرف على الأفعال من منظور الشخص الأول، حيث تستفيد من نموذج متعدد الوكلاء لتعزيز الدقة. نتائج التجارب تشير إلى تحسن ملحوظ في الأداء دون الحاجة إلى ضبط مسبق.
يعتبر التعرف على الأفعال الدقيقة في مقاطع الفيديو ذات الطابع الشخصي تحدياً حقيقياً لنماذج الرؤية واللغة (Vision-Language Models - VLMs) بسبب التغيرات الطفيفة التي تتميز بها الأفعال. هذه الأفعال غالباً ما تختلف فقط في الدلالات المرئية البسيطة، مما يؤدي إلى انحياز نموذج واحد نحو مجموعة معينة من هذه الدلالات. \n\nلذا، تم عرض إطار عمل جديد تحت عنوان "قسم، ت deliberation، قرّر"، وهو نموذج متعدد الوكلاء يعمل بشكل محلي تمامًا وبأسلوب عدم التكييف. يتضمن هذا الإطار ثلاثة خطوات رئيسية: \n1. يقوم المنظم باستعراض الفيديو وتقسيمه إلى أجزاء وإعداد قائمة بأهم المقترحات لكل جزء. \n2. يتعاون فريق من متخصصي VLM المختلفين في إجراء ت deliberation منظم يتضمن جولة استشارة بين الأقران. \n3. يتم جمع ترتيبات الوكلاء باستخدام نظام تصنيف بورد (Borda count)، حيث يعيد المنظم ترتيب توقعاته استنادًا إلى الأدلة الواردة من المتخصصين. \n\nتظهر التجارب أن هذه الطريقة تحسن بشكل ملحوظ من أداء التعرف على الأفعال في حالات عدم التكييف مقارنة بالأساليب التقليدية. ما يميز هذا النموذج هو تأثير مرحلة الت deliberation المتنوعة، مما يظهر أن التحسن يعود إلى فصل الأولويات بين النماذج بدلاً من زيادة حجم الحسابات المطلوبة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
