في ظل التطور السريع لتطبيقات الذكاء الاصطناعي، يبرز التعرف على الأفعال بدون أمثلة (Zero-shot Action Recognition) كأحد التحديات الكبيرة. فحتى الآن، كانت الطريقة السائدة تعتمد على محاذاة ميزات الهيكل العظمي مع دلالات ثابتة تتعلق بالفئات، مما يتسبب في عدم القدرة على التعامل مع الفجوات بين الفئات التي تم رؤيتها وتلك التي لم تُرَ.

نقدم لكم اليوم تقنية جديدة تحمل اسم DynaPURLS، وهي إطار موحد يمكّن من إنشاء توافقات دلالية بصرية متعددة المقاييس. يعمل هذا النظام على تحسين قدرتنا على التعرف على الحركات بشكل ديناميكي في الوقت الفعلي.

تستفيد DynaPURLS من نماذج اللغة الكبيرة (Large Language Models) لتوليد أوصاف نصية هرمية تربط بين الحركات العامة والديناميكيات الخاصة بالأجزاء المحلية للجسم. ومن أجل تعزيز التوافق الدقيق، يقدم هذا النظام وحدة تقسيم تكيفية تقوم بجمع النقاط الهيكلية بناءً على دلالاتها.

ما يميز DynaPURLS هو وحدة تحسين ديناميكية تدعم العملية في أثناء الاستدلال، حيث تتكيف الميزات النصية لتناسب تدفقات الفيديو الواردة، مما يعزز من دقة التعرف على الأفعال. كما تتضمن هذه العملية بنكا للذاكرة متوازنًا وفقاً للفئات وقادرًا على تقدير الثقة، مما يقلل من الأخطاء الناتجة عن التسميات الصورية المزعجة.

لقد أظهرت التجارب على مجموعة بيانات كبيرة مثل NTU RGB+D 60/120 و PKU-MMD تفوق DynaPURLS بشكل ملحوظ، حيث حققت سجلات جديدة في هذا المجال.

إذا كنت مهتمًا بالتقنيات التي تعيد تشكيل مفهوم التعلم الآلي، فإن DynaPURLS هي واحدة من تلك الابتكارات التي تستحق المتابعة. فما رأيكم في هذا التطور؟ شاركونا في التعليقات.