في عالم تكنولوجيا الذكاء الاصطناعي، يكشف PushupBench عن جوانب جديدة في أداء نماذج الرؤية واللغة (Vision-Language Models) في احتساب التكرارات. بالرغم من قدرة هذه النماذج على التعرف على الأحداث في الفيديو، فإنها تجد صعوبة كبيرة في تحديد عدد مرات حدوثها.

يتضمن PushupBench مجموعة مكونة من 446 مقطع فيديو طويل (بمتوسط مدة 36.7 ثانية) تم تصميمها خصيصًا لتقييم دقة عد التكرارات. يتربع النموذج الأفضل على قمة الأداء بدقة تصل إلى 42.1%، بينما تسجل النماذج مفتوحة المصدر 4B حوالي 6%، مما يعكس الفجوة الكبيرة بين الأداء الفعلي والمرغوب.

الأكثر إثارة أن هذه النتائج تشير إلى أن الاعتماد على دقة العد وحده قد يكون مضللاً، حيث إن النماذج الأضعف قد تستغل الأنماط بدلاً من اعتماد التفكير الزمني، مما يبرز أهمية عملية الضبط الدقيق للنماذج باستخدام مجموعة بيانات من 1000 عينة لتحسين الأداء في مهام العد.

من المثير للاهتمام أن تحسين هذا الجانب من النماذج يؤثر أيضًا على فهم الفيديو بشكل عام، حيث حققوا تحسينات ملحوظة في اختبارات مثل MVBench وPerceptionTest. هذه النتائج توضح أن إتقان مهمة العد هو في الواقع مؤشر على القدرة على التفكير الزمني الأوسع.

يمكنك العثور على PushupBench ضمن مشروع lmms-eval المفتوح المصدر والمستضاف على pushupbench.com. إن تطوير أدوات مثل PushupBench يمكن أن يمثل خطوة مهمة نحو نماذج أكثر دقة وقوة في تحليل الفيديو وفهمه.