في عالم الذكاء الاصطناعي، تتطلب معالجة الفيديو فعالية وسرعة، وهنا يأتي دور AdaCodec، الابتكار الجديد الذي يعد بتقديم ثورة في نماذج اللغة الكبيرة متعددة الوسائط (video MLLMs). إن الفيديو يحتوي على تكرار زمني، إذ تشترك الإطارات المتجاورة في معظم الأشياء والخلفيات والتخطيطات. ومع ذلك، فإن معظم نماذج الفيديو الحالية تقوم بتشفير كل إطار كما لو كان صورة RGB مستقلة، مما يتسبب في تكرار المحتوى الموجود بالفعل في الإطارات السابقة.
تُقدم AdaCodec واجهة فيديو أكثر مباشرة، حيث ترسل إطار مرجعي كاملاً فقط عندما يكون من الصعب توقع المشهد من السياق السابق. وبخلاف ذلك، يتم نقل وصف مضغوط للتغييرات بين الإطارات. وبذلك، يُطلق على هذه الواجهة اسم "الكود البصري التنبؤي" (Predictive Visual Code).
ماذا يعني ذلك لعالم الذكاء الاصطناعي؟ ببساطة، يستخدم AdaCodec الرموز البصرية الكاملة على إطار مرجعي فقط عندما تكون تكلفة التنبؤ الشرطية مرتفعة. في الحالات الأخرى، يقوم بتشفير التغييرات بين الإطارات، بما في ذلك الحركة وال residuals التنبؤية، كرموز مضغوطة من نوع P.
عبر أحد عشر معياراً مختلفاً، أثبتت AdaCodec تفوقها على نموذج Qwen3-VL-8B في معالجة كل إطار مقابل ميزانية الرموز البصرية المتطابقة. وليس فقط ذلك، بل حتى عند ميزانية تعادل 1/7، نجحت AdaCodec، باستخدام 32 ألف رمز، في التفوق على 224 ألفاً في جميع المعايير الطويلة للفيديو. كما حققت تحسينات ملحوظة في معدل الأداء، حيث انخفض الوقت المطلوب للوصول إلى الرمز الأول من 9.26 ثانية إلى 1.62 ثانية.
إن التقدم في معالجة الفيديو باستخدام AdaCodec قد يمثل طفرة في الكفاءة والإبداع في كيفية تفاعل نماذج اللغة الكبيرة مع البيانات. فلنكن متفائلين بمزيد من التحسينات المستقبلية في هذا المجال الرائع وأجروا مناقشات حول تأثير هذه الابتكارات.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
اكتشاف AdaCodec: الكود البصري التنبؤي الثوري للفيديو في نماذج اللغة الكبيرة!
تقدم AdaCodec نهجاً مبتكراً في معالجة الفيديو، مما يعزز فعالية نماذج اللغة الكبيرة متعددة الوسائط (video MLLMs) من خلال تقليل التكرار البصري. بفضل هذا الابتكار، تتحقق تحسينات ملحوظة في الأداء وسرعة معالجة البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
