تواجه [نماذج [الرؤية](/tag/الرؤية)-اللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-[اللغة](/tag/اللغة)) ([Vision-Language Models](/tag/vision-language-models)) [تحديات](/tag/تحديات) كبيرة بسبب التكاليف الحسابية المرتفعة الناتجة عن تسلسلات الرموز البصرية الضخمة أثناء عمليات [الاستدلال](/tag/الاستدلال). ولقد كانت الأساليب الحالية في [تقليل الرموز البصرية](/tag/تقليل-الرموز-البصرية) تُخفف من هذه الأعباء، لكنها كانت تفشل في [استكشاف](/tag/استكشاف) [العلاقات](/tag/العلاقات) [السياقية](/tag/السياقية) بين الموضوعات المهمة وتصرفها بمساءلة تامة مع [استعلامات](/tag/استعلامات) المستخدم.

في هذا السياق، قدّم الباحثون [نموذج](/tag/نموذج) SPpruner، الذي يمثل نموذجًا مبتكرًا يقوم على تقليص [رموز](/tag/رموز) [الرؤية](/tag/الرؤية) بشكل تدريجي مع التركيز على الموضوعات. استوحى هذا النموذج من آلية "التركيز ثم [السياق](/tag/السياق)" التي تستخدمها قدرات الإدراك البصري لدى البشر.

يبدأ SPpruner، أولاً، بنموذج لتحديد التركيز يقوم بنمذجة [التفاعل](/tag/التفاعل) بين الظهور البصري (Visual Saliency) والأهمية الدلالية (Semantic Relevance). هذا النموذج قادر على استخراج طيف شامل من الموضوعات البصرية لضمان تمثيل دقيق وعالي الجودة للمدخلات البصرية.

ثم يتم [تطوير](/tag/تطوير) وحدة مسح هيكلية مدركة للسياق، والتي تجمع الإشارات [السياقية](/tag/السياقية) من المناطق المجاورة. من خلال هذه الآلية، يمكن للنموذج إعادة [بناء](/tag/بناء) التبعية العالمية بين الموضوعات مع الحفاظ على تكاملها الهيكلي.

تظهر [التجارب](/tag/التجارب) الشاملة أن [نموذج SPpruner](/tag/[نموذج](/tag/نموذج)-sppruner) يتفوق باستمرار على الطرق الحديثة (State-of-the-Art)، حيث حقق زيادة في [السرعة](/tag/السرعة) تصل إلى 2.53 مرة مع الاحتفاظ فقط بـ 22.2% من الرموز البصرية في الإصدارة Qwen2.5-VL، وتقليل بنسبة 67% في FLOPs مع انخفاض طفيف في [الدقة](/tag/الدقة) بنسبة 0.6% على [نموذج](/tag/نموذج) LLaVA.

هل تعتقد أن هذه التطورات ستحدث ثورة في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!