تعد عملية فهم الأجسام الصغيرة في الفيديوهات الداخلية واحدة من أكبر التحديات التي تواجه نماذج اللغة الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs). على الرغم من التطورات الهائلة في هذا المجال، لم يكن هناك معيار فعلي يقيم ما إذا كانت النماذج قادرة على تحديد موقع جسم مستهدف بدقة، مع إمكانية استخدام هذه المعلومات في التطبيقات المستقبلية.
في هذا السياق، تم تقديم مجموعة بيانات PinpointQA، التي تُعتبر الأولى في مجال فهم الأجسام الصغيرة في الفيديوهات الداخلية. تم بناء PinpointQA باستخدام بيانات ScanNet++ وScanNet200، وتحتوي على 1,024 مشهدًا و10,094 زوجًا من الأسئلة والأجوبة، مصنفة إلى أربع مهام تتدرج في الصعوبة: التحقق من وجود الهدف (Target Presence Verification - TPV)، تحديد المرجع الأقرب (Nearest Reference Identification - NRI)، الوصف المكاني الدقيق (Fine-Grained Spatial Description - FSD)، وتوقعات المكان المهيكلة (Structured Spatial Prediction - SSP).
تُظهر التجارب التي أُجريت على MLLMs منديلًا مستمرًا من الفجوات في القدرات عبر المهام، حيث تظل SSP صعبة بشكل خاص. وقد أدت عمليات التعديل المشرف على PinpointQA إلى تحقيق تحسن كبير، خاصة في المهام الأصعب، مما يثبت أن PinpointQA ليس فقط معيارًا للتشخيص ولكنه أيضًا مجموعة بيانات تدريب فعالة.
للمزيد من المعلومات حول مجموعة بيانات PinpointQA ومشروعها، يمكنكم زيارة الرابط: [الرابط](https://rainchowz.github.io/PinpointQA). ما رأيكم في هذه التطورات الجديدة؟ شاركونا أفكاركم في التعليقات!
PinpointQA: إنجاز ثوري في فهم الأجسام الصغيرة في الفيديوهات الداخلية
تم إطلاق مجموعة بيانات PinpointQA، والتي تعتبر الأولى من نوعها في تقييم الفهم المكاني للأجسام الصغيرة في الفيديوهات الداخلية. تهدف هذه المجموعة إلى تعزيز قدرة نماذج الذكاء الاصطناعي على تحديد مواقع الأجسام بدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
