تسجل نماذج اللغات الضخمة المولتي مودال (MLLMs) تقدمًا ملحوظًا في مجموعة متنوعة من المهام التفسيرية، بدءًا من تحليل الصور والفيديو إلى حل المسائل الفيزيائية والرياضية. لكن المفاجأة تكمن في نقص الفهم السليم لديها فيما يتعلق بفهم الأجسام الصغيرة (Small Object Understanding - SOU).

لإغلاق هذه الفجوة، تم تقديم SOUBench، والذي يُعتبر أول معيار شامل لاستكشاف قدرة نماذج MLLMs على فهم الأجسام الصغيرة. يشمل هذا المنهج تصميم استراتيجية فعالة لأتمتة توليد الأسئلة والأجوبة البصرية، مما يتيح إنشاء مجموعة بيانات جديدة لتقييم الفهم (SOU-VQA) تتضمن 18,204 مجموعة من الأسئلة والأجوبة، بالإضافة إلى ستة مهام فرعية وثلاثة سيناريوهات رئيسية هي القيادة (Driving)، والتصوير الجوي (Aerial)، وغمر المياه (Underwater).

بعد ذلك، تم إجراء تقييم شامل على 15 من أفضل نماذج MLLMs، حيث كشفت النتائج عن ضعف القدرات المتعلقة بفهم الأجسام الصغيرة. ولمواجهة هذه التحديات، تم تطوير SOU-Train، وهي مجموعة تدريب متعددة الأنماط تتضمن 11,226 زوجًا من الأسئلة والأجوبة لتحسين قابلية الفهم لنماذج MLLMs تجاه الأجسام الصغيرة.

من خلال إشراف دقيق على ضبط النموذج، تم إثبات أن SOU-Train يمكن أن يعزز بشكل فعال قدرة أحدث نماذج MLLM على فهم الأجسام الصغيرة. تظهر النتائج التجريبية الشاملة أن SOUBench، جنبًا إلى جنب مع مجموعات البيانات SOU-VQA وSOU-Train، يمثل أساسًا تجريبيًا مهمًا للمجتمع لتطوير نماذج بقدرات محسنة في فهم الأجسام الصغيرة.

لمزيد من المعلومات، يمكنكم زيارة [الرابط].