تتقدم نماذج اللغات متعددة الوسائط (MLLMs) بخطوات سريعة في تقديم حلول ذكية لكن تواجه معضلة كفاءة الأداء بسبب عدد التوكنات البصرية الكبير، مما يزيد من الأعباء الحسابية. هذه التوكنات، التي تُعتبر عناصر أساسية لمعالجة البيانات، تحتاج إلى إعادة تقليم لتحسين الأداء.
مع الأساليب التقليدية الحالية، غالبًا ما تظهر مشكلات تتعلق بالاحتفاظ بالتوكنات الزائدة أو عدم الاستجابة للتعليمات بشكل دقيق. هنا يأتي دور تقنية TOPS (Token Optimal Preservation Sets)، التي تعيد تصوّر عملية تقليم التوكنات البصرية من منظور شامل.
من خلال تحليل نظري يعتمد على المعلومات، تم تحديد ثلاثة مبادئ رئيسية تساهم في اختيار التوكنات بشكل فعّال: الصلة بالمهام (Task Relevance)، تغطية المعلومات (Information Coverage)، والتنوع الدلالي (Semantic Diversity). تُعد تقنية TOPS وحدة تقليم لا تتطلب مرحلة تدريب ومرنة لتطبيقها على مختلف نماذج MLLM.
تظهر التجارب المتعددة التي أُجريت على 7 نموذجًا مختلفًا من MLLM و14 معيارًا أداءً يتفوق على الطرق السابقة في تنويع كبير في إعدادات التقليم. مثلاً، على نموذج LLaVA-NeXT، استطاعت TOPS إزالة 77.8% من التوكنات البصرية مع الحفاظ على نسبة أداء تصل إلى 100.0% على النموذج 7B و100.6% على النموذج 13B، مما يشير إلى أن تقليم التوكنات الزائدة قد يقلل من مشكلة الهلوسة (hallucination) ويفتح آفاقًا لتصميم نماذج MLLM خفيفة في المستقبل.
الابتكارات في الذكاء الاصطناعي تتقدم بسرعة، كيف تعتقد أن هذه التقنية ستؤثر على مستقبل نماذج اللغات متعددة الوسائط؟ شارك برأيك في التعليقات!
TOPS: ثورة جديدة في تحسين فعالية نماذج اللغات متعددة الوسائط!
تمتع نماذج اللغات متعددة الوسائط (MLLMs) بقدرات reasoning مدهشة، ولكنها تواجه تحديات تتعلق بكفاءة الأداء. تطرح تقنية TOPS حلاً مبتكرًا من خلال تقليل عدد التوكنات البصرية بشكل فعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# TOPS# MLLM# Token Pruning# AI# بحوث# تقيم الرموز البصرية# Artificial Intelligence# لغة# نماذج متعددة الوسائط# تحسين الأداء
جاري تحميل التفاعلات...
