GRIP-VLM: ثورة في تحسين كفاءة نماذج الرؤية واللغة!

تواجه نماذج الرؤية واللغة (Vision-Language Models - VLMs) تحديات كبيرة في معالجة عدد هائل من الرموز البصرية (Visual Tokens)، مما يضيف أعباءً حسابية ثقيلة. رغم النجاحات التي حققتها الطرق الحديثة في التخفيف من عبء الرموز الزائدة، فإنها تعتمد غالبًا على الاسترخاءات المستمرة، مما يؤدي إلى العوائق الأساسية في الأداء بسبب الطبيعة التكميلية للمشكلة.

لذلك، أُدخلت تقنية جديدة تُعرف بـ GRIP-VLM، والتي تُعتبر إطار عمل لتقليل الأهمية النسبية الجماعية باستخدام تقنية تعلم التعزيز (Reinforcement Learning). يختلف هذا المنهج من خلال معالجة عملية التخفيف (Pruning) كمشكلة قرار ماركوف (Markov Decision Process)، مما يوفر تحكما دقيقًا في عملية اختيار الرموز.

يأتي GRIP-VLM مع ميزة فريدة تعتمد على تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO) المُعززة بالتسخين المراقب (Supervised Warm-Up)، مما يسمح له بالاستكشاف الفعال للمساحة التكميلية. وبدلاً من الاعتماد على الافتراضات المستندة إلى التدرجات، فإن هذا الإطار يعمل على تقييم أهمية كل رمز بشكل ديناميكي، مما يجعل الوكيل خفيف الوزن قادرًا على التكيف مع أي نسبة ضغط دون الحاجة إلى إعادة التدريب.

أظهرت التجارب الواسعة على مجموعة متنوعة من المقاييس المتعددة الأنماط أن GRIP-VLM يتفوق باستمرار على الأساليب التقليدية والتعلم تحت الإشراف، حيث يحقق حدود Pareto أفضل، مما يؤدي إلى تسريع قدرته على الاستنتاج بنسبة تصل إلى 15% مع الحفاظ على دقة متساوية.

GRIP-VLM: ثورة في تحسين كفاءة نماذج الرؤية واللغة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

كيف أسست OpenAI عالماً آمناً لبرمجة كودكس على ويندوز؟

مايكروسوفت تُطلق MDASH: ثورة في الكشف عن الثغرات الخطِرة بذكاء اصطناعي متقدم!

استعداد البيانات للذكاء الاصطناعي الفعّال في الخدمات المالية!