في عالم الذكاء الاصطناعي، حيث يتطور استخدام النماذج البصرية بشكل متسارع، تبرز أهمية تحسين أداء نماذج البنية المرئية (Visual Foundation Models) في المهام التحليلية الدقيقة. على الرغم من الأداء المذهل الذي تحققه هذه النماذج في فهم المعاني، إلا أنها تصطدم بتحديات كبيرة في مهام التنبؤ الكثيف المعتمد على الكائنات، حيث تظهر تحيزات مختلفة في تمثيل المعلومات. على سبيل المثال، تركز نماذج التحليل القابلة للتحفيز (Promptable Segmentation Models) مثل نموذج "سام" (SAM) على حدود المناطق الدقيقة، بينما تعطي النماذج ذات التعليم الذاتي (Self-Supervised Models) مثل "دينوف 3" (DINOv3) أهمية للهياكل على مستوى الكائن.

تكشف هذه الملاحظات عن إمكانية دمج الميزات التكميلية من نماذج البنية المرئية المختلفة لتعزيز كفاءة المهام التحليلية. ومع ذلك، فإن الدمج بدائي للعديد من النماذج المرئية نادراً ما يؤدي إلى تحسينات موثوقة، ولم يتم استكشاف المبادئ التفسيرية لاستغلال الميزات التكميلية بشكل شامل بعد.

تقدم هذه الورقة البحثية نهجاً مدعوماً بالمتر يتيح اختيار وتجميع الميزات التكميلية بكفاءة بناءً على نقاط تقييم واضحة. طُور مجموعة من المقاييس الفريدة غير المرتبطة بالعناوين (Label-Free Metrics) في فضاء الميزات لتقييم مستوى الترابط الهيكلي (Structural Coherence) ودقة الحواف (Edge Fidelity) لميزات الترميز في نماذج البنية المرئية. وبناءً على هذه النقاط، يتم التعرف على أزواج من الترميز القوي للحواف والتركيب القوي، ودمجها من خلال نظام دمج رئيسي-مساعد لا يتطلب تغييرات معمارية معقدة، ويُدرب في مرحلة واحدة فقط.

أظهرت نماذجنا الجديدة تحسينات مستمرة في الأداء عبر مهام التحليل الدقيقة المتعددة مقارنةً بالمعايير، مع تقديم دلالات أفضل على مستوى الكائنات وحدود مُحَدَّدة بدقة أعلى. لمزيد من المعلومات، يمكنك الوصول إلى الشيفرة المصدرية على موقع GitHub.

ما هي آراؤكم حول هذا التقدم في دمج الميزات لتحسين نماذج البنية المرئية؟ شاركونا في التعليقات.