في عالم تصنيف الصور، غالبًا ما نستخدم تقنية “التجميع العالمي المتوسط” (Global Average Pooling - GAP) بالتوازي مع رأس تصنيف خطي، حيث يضمن هذا الهيكل الخطي أن يتم حساب logits لكل صورة بمعدل اللوغاريتمات التي تم الحصول عليها من تطبيق الرأس التصنيفي على شبكة الميزات قبل مرحلة GAP. مما يعني أن المصنفات الأساسية قد تحتفظ بأدلة مكانية على الفئة، يمكن استعادتها حتى في حالة وجود تنبؤ خاطئ على مستوى الصورة.

في هذا السياق، يظهر أن هذه البنية تشير بشكل طبيعي إلى تفسير تعلم متعدد الحالات (Multi-Instance Learning - MIL)، حيث يمكن اعتبار الصورة مجموعة من الحالات المكانية. من خلال هذا النموذج، تظهر أبحاثنا أن المصنفات القياسية التي يتم تدريبها مع علامة واحدة لكل صورة، يمكنها استيعاب مهمة التصنيف المطلوبة في مشاهد متعددة الكائنات.

وبالإضافة إلى ذلك، نستفيد من هذه الصفة لتفكيك لوغاريتمات الصورة على مستوى الصورة إلى شبكة تنبؤ، مما يوفر أداة تشخيصية بعد المعالجة لاستخراج الأدلّة المكانية للفئة، وهي معلومات قد تكون غائبة عن تقنية GAP.

تظهر التقييمات المنظمة أن النماذج المدربة يمكنها بشكل مستمر استعادة فئة الحقيقة داخل المناطق الأمامية، مما يسلط الضوء على فوائد استخدام تفسير MIL في تعزيز قدرات التصنيف. كما تشير إلى أن إخفاقات المصنفات الشائعة تعكس القيود المعروفة لتجميع المتوسط.

مع تزايد الاعتماد على تقنيات الذكاء الاصطناعي في تحليل البيانات المرئية، يُعتبر هذا البحث خطوة نحو تحسين أدوات التصنيف وفتح آفاق جديدة للابتكار.