تستمر نماذج الرؤية اللغوية للفيديو (VLMs) في دفع الحدود التقنية، ولكم كان من المدهش أن نرى كيف يمكن تجنب إهدار الموارد في تلك العملية. حيث تُشير دراسة حديثة إلى أن هذه النماذج تتكبد تكاليف متكررة لرؤية حالات بصرية كانت قد أخبرتنا سابقًا بأنها مستقرة.
بدلاً من تقديم إطارات RGB كثيفة أو بداية جديدة للموديل في كل مرة، قرر الباحثون دراسة كيفية إعادة استخدام الحالة عند الحصول على نتائج موثوقة. وقد أظهرت النتائج أن إعادة استخدام المعلومات تُعد كنزًا حقيقيًا، خاصة عندما يتعلق الأمر بالاستجابة للأسئلة المتكررة.
في اختبار على نموذج Qwen2.5-VL-7B-Instruct-4bit، تم تحقيق احتفاظ بالاختيارات المزدوجة والدقة على مجموعة من 93 استفسارًا، مع تقليص زمن الاستجابة بنسبة تتراوح بين 14.90 و35.92 مرة.
لسوء الحظ، يبقى الاستفسار الأول باردًا، ولكن التحسين الحقيقي يبدأ عند إعادة استخدام الحالة المرئية نفسها للاستفسارات اللاحقة. كما أظهرت اختبارات الضغط أن هذه النتائج مُثبتة، حيث أثبتت جداول الأسئلة المتكررة كفاءتها عبر 50 دورة، مما يعكس قدرة هذه النماذج على تحسين الأداء.
علاوة على ذلك، تصل تقنية C-VISION إلى نتائج رائعة عند تخطي الأعمال التقليدية قبل إنتاج الإجابة الأولى، حيث تحقق سرعة تصل إلى 1.316 مرة في الاستفسار الأول دون أي أخطاء في التوافق أو تحليل البيانات.
نتيجة لكل هذه الابتكارات، تبرز الاتجاهات المستقبلية في تطوير نماذج VLM بحيث تُظهر التغيير والحركة وعدم اليقين مباشرة، مما يسهل فهم العالم دون الحاجة للعودة إلى إطارات RGB الكثيفة في كل مرة.
تابعوا ما ينتظرنا في هذا المجال المتطور! هل لديكم تجارب أو آرائكم حول كيفية تحسين نماذج الذكاء الاصطناعي في المستقبل؟ شاركونا في التعليقات.
ثورة في نماذج الفيديو: تعزيز الذكاء الاصطناعي دون إعادة تدريب!
تمثل الدراسة الجديدة تقدمًا مذهلاً في نماذج الرؤية اللغوية للفيديو (VLMs)، حيث تقدم تقنيات مبتكرة للتخلص من إعادة حساب البيانات غير الضرورية. تعرفوا على كيفية تحسين أداء الأنظمة الذكية بأقل جهد!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
