في عالم الذكاء الاصطناعي، حيث يتطور استخدام [النماذج البصرية](/tag/[النماذج](/tag/النماذج)-البصرية) بشكل متسارع، تبرز أهمية [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج](/tag/نماذج) البنية المرئية (Visual Foundation [Models](/tag/models)) في المهام التحليلية الدقيقة. على الرغم من [الأداء](/tag/الأداء) المذهل الذي تحققه هذه [النماذج](/tag/النماذج) في [فهم](/tag/فهم) المعاني، إلا أنها تصطدم بتحديات كبيرة في مهام [التنبؤ](/tag/التنبؤ) الكثيف المعتمد على الكائنات، حيث تظهر [تحيزات](/tag/تحيزات) مختلفة في تمثيل [المعلومات](/tag/المعلومات). على سبيل المثال، تركز [نماذج التحليل](/tag/[نماذج](/tag/نماذج)-[التحليل](/tag/التحليل)) القابلة للتحفيز (Promptable Segmentation [Models](/tag/models)) مثل [نموذج](/tag/نموذج) "سام" ([SAM](/tag/sam)) على حدود المناطق الدقيقة، بينما تعطي [النماذج](/tag/النماذج) ذات [التعليم](/tag/التعليم) الذاتي (Self-Supervised [Models](/tag/models)) مثل "دينوف 3" ([DINOv3](/tag/dinov3)) أهمية للهياكل على مستوى الكائن.

تكشف هذه الملاحظات عن إمكانية دمج الميزات التكميلية من [نماذج](/tag/نماذج) البنية المرئية المختلفة لتعزيز [كفاءة](/tag/كفاءة) المهام التحليلية. ومع ذلك، فإن [الدمج](/tag/الدمج) بدائي للعديد من [النماذج](/tag/النماذج) المرئية نادراً ما يؤدي إلى [تحسينات](/tag/تحسينات) موثوقة، ولم يتم [استكشاف](/tag/استكشاف) المبادئ [التفسيرية](/tag/التفسيرية) لاستغلال الميزات التكميلية بشكل شامل بعد.

تقدم هذه الورقة البحثية نهجاً مدعوماً بالمتر يتيح اختيار وتجميع الميزات التكميلية بكفاءة بناءً على نقاط [تقييم](/tag/تقييم) واضحة. طُور مجموعة من المقاييس الفريدة غير المرتبطة بالعناوين (Label-Free Metrics) في [فضاء](/tag/فضاء) الميزات لتقييم مستوى الترابط الهيكلي (Structural Coherence) ودقة الحواف (Edge Fidelity) لميزات الترميز في [نماذج](/tag/نماذج) البنية المرئية. وبناءً على هذه النقاط، يتم [التعرف](/tag/التعرف) على أزواج من الترميز القوي للحواف والتركيب القوي، ودمجها من خلال نظام دمج رئيسي-مساعد لا يتطلب [تغييرات](/tag/تغييرات) [معمارية](/tag/معمارية) معقدة، ويُدرب في مرحلة واحدة فقط.

أظهرت نماذجنا الجديدة [تحسينات](/tag/تحسينات) مستمرة في [الأداء](/tag/الأداء) [عبر](/tag/عبر) مهام [التحليل](/tag/التحليل) الدقيقة المتعددة مقارنةً بالمعايير، مع تقديم دلالات أفضل على مستوى الكائنات وحدود مُحَدَّدة بدقة أعلى. لمزيد من المعلومات، يمكنك الوصول إلى الشيفرة المصدرية على موقع [GitHub](https://github.com/gyc-code/metric-guided-fusion).

ما هي آراؤكم حول هذا التقدم في دمج الميزات لتحسين [نماذج](/tag/نماذج) البنية المرئية؟ شاركونا في [التعليقات](/tag/التعليقات).