تتقدم نماذج اللغات متعددة الوسائط (MLLMs) بخطوات سريعة في تقديم حلول ذكية لكن تواجه معضلة كفاءة الأداء بسبب عدد التوكنات البصرية الكبير، مما يزيد من الأعباء الحسابية. هذه التوكنات، التي تُعتبر عناصر أساسية لمعالجة البيانات، تحتاج إلى إعادة تقليم لتحسين الأداء.

مع الأساليب التقليدية الحالية، غالبًا ما تظهر مشكلات تتعلق بالاحتفاظ بالتوكنات الزائدة أو عدم الاستجابة للتعليمات بشكل دقيق. هنا يأتي دور تقنية TOPS (Token Optimal Preservation Sets)، التي تعيد تصوّر عملية تقليم التوكنات البصرية من منظور شامل.

من خلال تحليل نظري يعتمد على المعلومات، تم تحديد ثلاثة مبادئ رئيسية تساهم في اختيار التوكنات بشكل فعّال: الصلة بالمهام (Task Relevance)، تغطية المعلومات (Information Coverage)، والتنوع الدلالي (Semantic Diversity). تُعد تقنية TOPS وحدة تقليم لا تتطلب مرحلة تدريب ومرنة لتطبيقها على مختلف نماذج MLLM.

تظهر التجارب المتعددة التي أُجريت على 7 نموذجًا مختلفًا من MLLM و14 معيارًا أداءً يتفوق على الطرق السابقة في تنويع كبير في إعدادات التقليم. مثلاً، على نموذج LLaVA-NeXT، استطاعت TOPS إزالة 77.8% من التوكنات البصرية مع الحفاظ على نسبة أداء تصل إلى 100.0% على النموذج 7B و100.6% على النموذج 13B، مما يشير إلى أن تقليم التوكنات الزائدة قد يقلل من مشكلة الهلوسة (hallucination) ويفتح آفاقًا لتصميم نماذج MLLM خفيفة في المستقبل.

الابتكارات في الذكاء الاصطناعي تتقدم بسرعة، كيف تعتقد أن هذه التقنية ستؤثر على مستقبل نماذج اللغات متعددة الوسائط؟ شارك برأيك في التعليقات!