في عالم تطوير الذكاء الاصطناعي، تظهر نماذج الفيديو واللغة (VLMs) كأحد أبرز الابتكارات المتقدمة. لكن كما هو الحال مع كل تكنولوجيا، تواجه هذه النماذج تحديات كبيرة، خاصة عندما يتعلق الأمر بالتكاليف السريعة للاستدلال عند زيادة عدد الرموز المرئية مع طول الفيديو. على سبيل المثال، يمكن أن تنتج 32 إطارًا بدقة $448{ imes}448$ أكثر من 8000 رمز بصري، مما يجعل قدرة نماذج اللغة الكبيرة (LLMs) هي العائق الأكبر في الناتج العام.

تقدم الحلول الحالية أدوات تعتمد على التشابه العام أو تقنيات ضغط موجه من خلال الانتباه، ولكن غالبًا ما تُقابل بعيوب تؤثر على الأداء.

هنا تأتي الابتكارات الجديدة مع تقنية دمج الرموز الزمنية (Temporal Token Fusion - TTF)، وهي إطار عمل بسيط وسهل التطبيق، يساعد في تحسين ضغط الرموز قبل مرحلة نماذج اللغة. تعتمد TTF على استغلال التكرار الزمني المنظم داخل الفيديو، حيث تختار إطارًا مرجعيًا ثم تُجري بحثًا محليًا عن التشابه (مثل $3 imes 3$) لكل إطار تالٍ، مما يمكّنها من دمج الرموز التي تتجاوز حدًا معينًا.

تضمن السلسلة المضغوطة الحفاظ على تناسق الموقع بين المراحل المختلفة من إعادة التحميل والتشفير من خلال إعادة ترتيب الإحداثيات، مما يجعل تكاملها مع الأنظمة الحالية لنماذج الفيديو واللغة سلسًا. في تجربتها على نموذج Qwen3-VL-8B، استطاعت TTF تقليل حوالي 67% من الرموز المرئية مع الحفاظ على 99.5% من دقة القاعدة، مع إدخال فقط حوالي 0.16 GFLOPs من عبء المطابقة.

بصفة عامة، تقدم TTF حلاً عمليًا وفعالًا لفهم الفيديو، مما يجعل نماذج الفيديو واللغة أكثر قوة وقدرة على التعامل مع محتوى أكبر. للاطلاع على الكود، يمكنك زيارة [GitHub](https://github.com/Cominder/ttf). ما رأيكم في هذه التقنية الجديدة؟ شاركونا في التعليقات!