تواجه نماذج الرؤية واللغة (Vision-Language Models - VLMs) تحديات كبيرة في معالجة عدد هائل من الرموز البصرية (Visual Tokens)، مما يضيف أعباءً حسابية ثقيلة. رغم النجاحات التي حققتها الطرق الحديثة في التخفيف من عبء الرموز الزائدة، فإنها تعتمد غالبًا على الاسترخاءات المستمرة، مما يؤدي إلى العوائق الأساسية في الأداء بسبب الطبيعة التكميلية للمشكلة.
لذلك، أُدخلت تقنية جديدة تُعرف بـ GRIP-VLM، والتي تُعتبر إطار عمل لتقليل الأهمية النسبية الجماعية باستخدام تقنية تعلم التعزيز (Reinforcement Learning). يختلف هذا المنهج من خلال معالجة عملية التخفيف (Pruning) كمشكلة قرار ماركوف (Markov Decision Process)، مما يوفر تحكما دقيقًا في عملية اختيار الرموز.
يأتي GRIP-VLM مع ميزة فريدة تعتمد على تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO) المُعززة بالتسخين المراقب (Supervised Warm-Up)، مما يسمح له بالاستكشاف الفعال للمساحة التكميلية. وبدلاً من الاعتماد على الافتراضات المستندة إلى التدرجات، فإن هذا الإطار يعمل على تقييم أهمية كل رمز بشكل ديناميكي، مما يجعل الوكيل خفيف الوزن قادرًا على التكيف مع أي نسبة ضغط دون الحاجة إلى إعادة التدريب.
أظهرت التجارب الواسعة على مجموعة متنوعة من المقاييس المتعددة الأنماط أن GRIP-VLM يتفوق باستمرار على الأساليب التقليدية والتعلم تحت الإشراف، حيث يحقق حدود Pareto أفضل، مما يؤدي إلى تسريع قدرته على الاستنتاج بنسبة تصل إلى 15% مع الحفاظ على دقة متساوية.
GRIP-VLM: ثورة في تحسين كفاءة نماذج الرؤية واللغة!
تقدم GRIP-VLM إطار عمل لتحسين كفاءة نماذج الرؤية واللغة، حيث تساهم تقنية تقليم الأهمية النسبية الجماعية المدفوعة بتعلم التعزيز في تحقيق أداء متفوق مع تقليل التكاليف الحسابية. هذا الابتكار قد يحدث تحولًا كبيرًا في كيفية معالجة البيانات المتعددة الأنماط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
