تعتبر طرق ترشيد الرموز المرئية (Visual Token Pruning) واحدة من الاستراتيجيات الأساسية لتسريع نماذج رؤية الآلة (VLMs) عن طريق ضغط الأجزاء الزائدة في الصور. ومع ذلك، غالباً ما تفشل الأساليب الحالية في الحفاظ على الإشارات الحاسمة تحت تعليمات كثيفة واستفسارات تفصيلية.
في دراستنا، نحقق في أسباب هذا الفشل ونحدد عنصرين رئيسيين في المشكلة: انتشار ضوضاء النصوص بشكل واسع، مما يؤدي إلى تدهور التقييم المتبادل بين الصور والنصوص، والتجزئة للخصائص المرتبطة باختيار الرموز التقليدي.
لعلاج هذه القضايا، نقدم نموذج "تقليم كثيف مستند إلى الانتروبيا" (Entropy-Aware Dense Pruning - EADP)، والذي يعالج عملية الترشيد كمشكلة ضغط منظمة. يبدأ النموذج باستخدام الانتروبيا الإحصائية لتقدير وتصفية ضوضاء النصوص، مما ينتج عنه درجة ارتباط قوية لتعليمات دقيقة.
بدلاً من الطريقة التقليدية للاختيار العشوائي لأفضل ك، يقوم نموذج EADP بتقديم اختيار الرموز كمسألة تعظيم ثانوي مع مراعاة مكاني، مما يضمن تمثيلاً بصرياً شاملاً وغير زائد. أظهرت التجارب الواسعة أن EADP يحسن توازن الدقة والكفاءة في نماذج رؤية الآلة، مما يحافظ بشكل موثوق على الإشارات البصرية الدقيقة تحت ميزانيات رمزية صارمة لتحقيق أداء متقدم في اختبارات متعددة الأنماط.
هل تعتقد أن هذه الابتكارات كفيلة بتحسين نماذج الذكاء الاصطناعي في المستقبل؟ شاركونا آراءكم في التعليقات!
كيف يتجاوز نموذج EADP ضوضاء النصوص لزيادة كفاءة رؤية الآلة؟ اكتشفوا الحلول المبتكرة!
تقدم الورقة البحثية نموذج Entropy-Aware Dense Pruning (EADP) كاستراتيجية فعالة لترشيد الأجزاء المرئية من الصور وتحسين دقة استجابة نماذج رؤية الآلة (VLMs). يتناول هذا النموذج مشكلات ضوضاء النصوص والتجزئة للخصائص ليحقق أداءً متقدماً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
