في عالم تطوير الذكاء الاصطناعي، تظهر نماذج الفيديو واللغة (VLMs) كأحد أبرز الابتكارات المتقدمة. لكن كما هو الحال مع كل تكنولوجيا، تواجه هذه النماذج تحديات كبيرة، خاصة عندما يتعلق الأمر بالتكاليف السريعة للاستدلال عند زيادة عدد الرموز المرئية مع طول الفيديو. على سبيل المثال، يمكن أن تنتج 32 إطارًا بدقة $448{ imes}448$ أكثر من 8000 رمز بصري، مما يجعل قدرة نماذج اللغة الكبيرة (LLMs) هي العائق الأكبر في الناتج العام.
تقدم الحلول الحالية أدوات تعتمد على التشابه العام أو تقنيات ضغط موجه من خلال الانتباه، ولكن غالبًا ما تُقابل بعيوب تؤثر على الأداء.
هنا تأتي الابتكارات الجديدة مع تقنية دمج الرموز الزمنية (Temporal Token Fusion - TTF)، وهي إطار عمل بسيط وسهل التطبيق، يساعد في تحسين ضغط الرموز قبل مرحلة نماذج اللغة. تعتمد TTF على استغلال التكرار الزمني المنظم داخل الفيديو، حيث تختار إطارًا مرجعيًا ثم تُجري بحثًا محليًا عن التشابه (مثل $3 imes 3$) لكل إطار تالٍ، مما يمكّنها من دمج الرموز التي تتجاوز حدًا معينًا.
تضمن السلسلة المضغوطة الحفاظ على تناسق الموقع بين المراحل المختلفة من إعادة التحميل والتشفير من خلال إعادة ترتيب الإحداثيات، مما يجعل تكاملها مع الأنظمة الحالية لنماذج الفيديو واللغة سلسًا. في تجربتها على نموذج Qwen3-VL-8B، استطاعت TTF تقليل حوالي 67% من الرموز المرئية مع الحفاظ على 99.5% من دقة القاعدة، مع إدخال فقط حوالي 0.16 GFLOPs من عبء المطابقة.
بصفة عامة، تقدم TTF حلاً عمليًا وفعالًا لفهم الفيديو، مما يجعل نماذج الفيديو واللغة أكثر قوة وقدرة على التعامل مع محتوى أكبر. للاطلاع على الكود، يمكنك زيارة [GitHub](https://github.com/Cominder/ttf). ما رأيكم في هذه التقنية الجديدة؟ شاركونا في التعليقات!
تكنولوجيا مبتكرة: دمج الرموز الزمنية لتحسين أداء نماذج الفيديو واللغة!
تقدم تقنية دمج الرموز الزمنية (TTF) حلاً فعالاً لتقليل عدد الرموز المرئية في نماذج الفيديو واللغة، مما يعزز الأداء ويقلل من تكاليف الاستدلال. تمنح هذه التقنية الجديدة نماذج الفيديو القدرة على التعامل مع محتوى أكبر بكفاءة عالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
