هل سئمت من فكرة النصوص التي لا تعكس ما يحدث في الفيديوهات؟ أظهرت دراسة جديدة منشورة على موقع arXiv كيفية تغيير هذا الواقع من خلال دمج حركة اليد مع استعلامات اللغة الطبيعية (Natural Language Query) في الفيديوهات الشخصية. حيث يتطلب تكنولوجيا الذكاء الاصطناعي الحديثة فهم عميق لحركة اليد في سياق المعلومات المعطاة.

لقد اقترح الباحثون تطوير مُشفر لمسار اليد (hand-trajectory encoder) يقوم بتحويل تسلسل هياكل اليد إلى ميزات حركية ذات دلالة عالية. هذه الميزات تُدمج بعدها مع معلومات الفيديو المسبقة عبر استراتيجية دمج انتباهية متقاطعة (cross-attention fusion)، مما يعطي النموذج قدرة أكبر على تحديد اللحظات الحيوية في الفيديو.

في تجربة على مجموعة بيانات Ego4D NLQ، لوحظت مكاسب واضحة في استعلامات تفاعل اليد مع الأجسام، حيث سجلت النتائج تحسناً بنسبة +2.54 في معدل الاستدعاء عند نسبة تداخل 0.3، وبنسبة +4.32 لاستعلامات الكمية/الحالة.

هذا التحول يظهر بوضوح أن حركة اليد توفر مؤشرات قوية تفوق فقط المظاهر المرئية، مما ينقل تجربة فهم الفيديو إلى مستوى جديد تمامًا. إذا كنت مهتماً بمستقبل الذكاء الاصطناعي والتفاعلات البشرية التقنية، فإن هذا التطور يستحق المتابعة!

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.