تشكل تحديات التعرف على الأفعال المركبة (Zero-Shot Compositional Action Recognition) محط اهتمام كبير في مجال الذكاء الاصطناعي، حيث تعتمد النماذج الحالية في الغالب على الارتباطات الموجودة بين الأفعال والأشياء. وفي دراسة حديثة، تناول الباحثون مشكلة جوهرية تتمثل في اعتماد بعض النماذج على الاختصارات المدفوعة بالأشياء بدلاً من الاعتماد على الأدلة الزمنية، مما يؤدي إلى ضعف الأداء في التعرف على التركيبات الجديدة.

يرى الباحثون أن الاعتماد على المفتاحيات النادرة في التركيب ووجود تباين في التعلم بين الأفعال والأشياء يسهمان بشكل كبير في تطوير هذه الاختصارات المدفوعة. وكشفت تحليلاتهم باستخدام القياسات التشخيصية المقترحة عن أن الأساليب الحالية تميل إلى التركيز على الأنماط المتكررة في التدريب، مما يعمل على تقليل فعالية استغلال الأدلة الزمنية من الأفعال.

ولتجاوز هذه المشكلة، اقترح الباحثون نموذجًا جديدًا يُعرف باسم Robust COmpositional REpresentations (RCORE). يتضمن هذا النموذج مكونين رئيسيين: الأول هو Co-occurrence Prior Regularization (CPR) الذي يوفر إشرافًا واضحًا على التركيبات الجديدة، بينما يعزز النموذج ضد الأنماط الشائعة من خلال معاملة تلك الأنماط كسلبيات صعبة. أما الثاني فهو Temporal Order Regularization for Composition (TORC) الذي يركز على حساسية مرتبة الزمن للتعرف على التراكيب الزمنية للأفعال.

أظهرت التجارب أن نموذج RCORE، عند استخدامه على مجموعات بيانات Sth-com وEK100-com، يسهم في تقليل التشخيصات المتعلقة بالاختصارات، مما يؤدي إلى تحسين القدرة على التعرف على التركيبات الجديدة بشكل ملحوظ. فهل ستكون هذه الحلول هي المفتاح للتغلب على تحديات التعرف على الأفعال المركبة في المستقبل؟ شاركونا آراءكم في التعليقات.