PinpointQA: إنجاز ثوري في فهم الأجسام الصغيرة في الفيديوهات الداخلية

تعد عملية فهم الأجسام الصغيرة في الفيديوهات الداخلية واحدة من أكبر التحديات التي تواجه نماذج اللغة الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs). على الرغم من التطورات الهائلة في هذا المجال، لم يكن هناك معيار فعلي يقيم ما إذا كانت النماذج قادرة على تحديد موقع جسم مستهدف بدقة، مع إمكانية استخدام هذه المعلومات في التطبيقات المستقبلية.

في هذا السياق، تم تقديم مجموعة بيانات PinpointQA، التي تُعتبر الأولى في مجال فهم الأجسام الصغيرة في الفيديوهات الداخلية. تم بناء PinpointQA باستخدام بيانات ScanNet++ وScanNet200، وتحتوي على 1,024 مشهدًا و10,094 زوجًا من الأسئلة والأجوبة، مصنفة إلى أربع مهام تتدرج في الصعوبة: التحقق من وجود الهدف (Target Presence Verification - TPV)، تحديد المرجع الأقرب (Nearest Reference Identification - NRI)، الوصف المكاني الدقيق (Fine-Grained Spatial Description - FSD)، وتوقعات المكان المهيكلة (Structured Spatial Prediction - SSP).

تُظهر التجارب التي أُجريت على MLLMs منديلًا مستمرًا من الفجوات في القدرات عبر المهام، حيث تظل SSP صعبة بشكل خاص. وقد أدت عمليات التعديل المشرف على PinpointQA إلى تحقيق تحسن كبير، خاصة في المهام الأصعب، مما يثبت أن PinpointQA ليس فقط معيارًا للتشخيص ولكنه أيضًا مجموعة بيانات تدريب فعالة.

للمزيد من المعلومات حول مجموعة بيانات PinpointQA ومشروعها، يمكنكم زيارة الرابط: [الرابط](https://rainchowz.github.io/PinpointQA). ما رأيكم في هذه التطورات الجديدة؟ شاركونا أفكاركم في التعليقات!

PinpointQA: إنجاز ثوري في فهم الأجسام الصغيرة في الفيديوهات الداخلية

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!

بحيرة تاهو في وادي السيليكون: كيف تؤثر ارتفاع أسعار الطاقة بسبب الذكاء الاصطناعي على مناخ الترفيه؟