يعتبر التعرف على الأفعال الدقيقة في مقاطع الفيديو ذات الطابع الشخصي تحدياً حقيقياً لنماذج الرؤية واللغة (Vision-Language Models - VLMs) بسبب التغيرات الطفيفة التي تتميز بها الأفعال. هذه الأفعال غالباً ما تختلف فقط في الدلالات المرئية البسيطة، مما يؤدي إلى انحياز نموذج واحد نحو مجموعة معينة من هذه الدلالات. \n\nلذا، تم عرض إطار عمل جديد تحت عنوان "قسم، ت deliberation، قرّر"، وهو نموذج متعدد الوكلاء يعمل بشكل محلي تمامًا وبأسلوب عدم التكييف. يتضمن هذا الإطار ثلاثة خطوات رئيسية: \n1. يقوم المنظم باستعراض الفيديو وتقسيمه إلى أجزاء وإعداد قائمة بأهم المقترحات لكل جزء. \n2. يتعاون فريق من متخصصي VLM المختلفين في إجراء ت deliberation منظم يتضمن جولة استشارة بين الأقران. \n3. يتم جمع ترتيبات الوكلاء باستخدام نظام تصنيف بورد (Borda count)، حيث يعيد المنظم ترتيب توقعاته استنادًا إلى الأدلة الواردة من المتخصصين. \n\nتظهر التجارب أن هذه الطريقة تحسن بشكل ملحوظ من أداء التعرف على الأفعال في حالات عدم التكييف مقارنة بالأساليب التقليدية. ما يميز هذا النموذج هو تأثير مرحلة الت deliberation المتنوعة، مما يظهر أن التحسن يعود إلى فصل الأولويات بين النماذج بدلاً من زيادة حجم الحسابات المطلوبة.