في عالم الذكاء الاصطناعي، حيث يتطور استخدام [النماذج البصرية](/tag/[النماذج](/tag/النماذج)-البصرية) بشكل متسارع، تبرز أهمية [تحسين أداء](/tag/[تحسين](/tag/تحسين)-[أداء](/tag/أداء)) [نماذج](/tag/نماذج) البنية المرئية (Visual Foundation [Models](/tag/models)) في المهام التحليلية الدقيقة. على الرغم من [الأداء](/tag/الأداء) المذهل الذي تحققه هذه [النماذج](/tag/النماذج) في [فهم](/tag/فهم) المعاني، إلا أنها تصطدم بتحديات كبيرة في مهام [التنبؤ](/tag/التنبؤ) الكثيف المعتمد على الكائنات، حيث تظهر [تحيزات](/tag/تحيزات) مختلفة في تمثيل [المعلومات](/tag/المعلومات). على سبيل المثال، تركز [نماذج التحليل](/tag/[نماذج](/tag/نماذج)-[التحليل](/tag/التحليل)) القابلة للتحفيز (Promptable Segmentation [Models](/tag/models)) مثل [نموذج](/tag/نموذج) "سام" ([SAM](/tag/sam)) على حدود المناطق الدقيقة، بينما تعطي [النماذج](/tag/النماذج) ذات [التعليم](/tag/التعليم) الذاتي (Self-Supervised [Models](/tag/models)) مثل "دينوف 3" ([DINOv3](/tag/dinov3)) أهمية للهياكل على مستوى الكائن.
تكشف هذه الملاحظات عن إمكانية دمج الميزات التكميلية من [نماذج](/tag/نماذج) البنية المرئية المختلفة لتعزيز [كفاءة](/tag/كفاءة) المهام التحليلية. ومع ذلك، فإن [الدمج](/tag/الدمج) بدائي للعديد من [النماذج](/tag/النماذج) المرئية نادراً ما يؤدي إلى [تحسينات](/tag/تحسينات) موثوقة، ولم يتم [استكشاف](/tag/استكشاف) المبادئ [التفسيرية](/tag/التفسيرية) لاستغلال الميزات التكميلية بشكل شامل بعد.
تقدم هذه الورقة البحثية نهجاً مدعوماً بالمتر يتيح اختيار وتجميع الميزات التكميلية بكفاءة بناءً على نقاط [تقييم](/tag/تقييم) واضحة. طُور مجموعة من المقاييس الفريدة غير المرتبطة بالعناوين (Label-Free Metrics) في [فضاء](/tag/فضاء) الميزات لتقييم مستوى الترابط الهيكلي (Structural Coherence) ودقة الحواف (Edge Fidelity) لميزات الترميز في [نماذج](/tag/نماذج) البنية المرئية. وبناءً على هذه النقاط، يتم [التعرف](/tag/التعرف) على أزواج من الترميز القوي للحواف والتركيب القوي، ودمجها من خلال نظام دمج رئيسي-مساعد لا يتطلب [تغييرات](/tag/تغييرات) [معمارية](/tag/معمارية) معقدة، ويُدرب في مرحلة واحدة فقط.
أظهرت نماذجنا الجديدة [تحسينات](/tag/تحسينات) مستمرة في [الأداء](/tag/الأداء) [عبر](/tag/عبر) مهام [التحليل](/tag/التحليل) الدقيقة المتعددة مقارنةً بالمعايير، مع تقديم دلالات أفضل على مستوى الكائنات وحدود مُحَدَّدة بدقة أعلى. لمزيد من المعلومات، يمكنك الوصول إلى الشيفرة المصدرية على موقع [GitHub](https://github.com/gyc-code/metric-guided-fusion).
ما هي آراؤكم حول هذا التقدم في دمج الميزات لتحسين [نماذج](/tag/نماذج) البنية المرئية؟ شاركونا في [التعليقات](/tag/التعليقات).
دمج ميزات مدعومة بالمتر من نماذج البنية المرئية لتحسين مهام التحليل الدقيق
تقدم ورقة بحثية جديدة طريقة مبتكرة لتحسين نماذج البنية المرئية من خلال دمج الميزات التكميلية، مما يزيد من فعالية المهام التحليلية الدقيقة. تساعد هذه الطريقة في تحقيق أداء أعلى وتحديد حدود الكائنات بدقة أكبر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
