في عصر الذكاء الاصطناعي، تشكل نماذج الرؤية واللغة (Vision-Language Models) محوراً أساسياً في فهم الصور والنصوص. ومع أن هذه النماذج قد حققت انجازات مذهلة، إلا أنها تواجه تحدياً كبيراً يتمثل في عبء الحوسبة الناتج عن العدد الهائل من الـ Tokens المرئية المكونة للمدخلات.

في خطوة مثيرة نحو تحسين الأداء، أعدّت الأبحاث الأخيرة استراتيجيات جديدة لخفض عدد الـ Tokens المرئية التي لا تضيف قيمة حقيقية في مهام فهم الصور. لكن، هذه الطرق كانت بحاجة لمعالجة خاصة عند التعامل مع مهام تحديد المواقع (Pixel Grounding Tasks)، حيث تكون أهمية الـ Tokens مرتبطة بشكل كبير بالنص المدخل.

من خلال تحليل متعمق لنموذج CLIP، تم اكتشاف أن الـ Tokens المرئية الموجودة في المناطق المرجعية غالباً ما تظهر تشابهاً منخفضاً مع التمثيل النصي. من هنا، جاءت فكرة LiteLVLM، الاستراتيجية المبتكرة التي لا تتطلب التدريب لتقليص عدد الـ Tokens.

تعتمد LiteLVLM على توجيه ميزة الـ Tokens باستخدام النص، مما يسمح لها بالاحتفاظ بالـ Tokens المرئية الضرورية، واستعادة الـ Tokens السياقية التي تسهل من فصل المقدمة عن الخلفية بشكل واضح. وقد أظهرت التجارب أن LiteLVLM تتفوق بفعالية على الطرق الأخرى بنسبة تفوق 5% ضمن مجموعة متنوعة من الميزانيات للـ Tokens.

مما يدهش جميع المتابعين، حافظ LiteLVLM على 90% من الأداء الأصلي مع تحسين السرعة بنسبة 22% وتقليل استهلاك الذاكرة بمعدل 2.3 مرة، كل ذلك دون الحاجة لأي تدريب إضافي.

للمزيد من التفاصيل، يمكنكم الاطلاع على الشفرة المصدرية عبر الرابط التالي: [https://github.com/sejong-rcv/LiteLVLM]. هل تعتقد أن هذه الابتكارات ستحدث تحولاً في كيفية استخدام نماذج الرؤية واللغة في المستقبل؟ شاركونا آراءكم في التعليقات!