في عالم الذكاء الاصطناعي، تتزايد أهمية نماذج الرؤية واللغة (Vision-Language Models - VLMs) بشكل كبير، لكن هذه النماذج تواجه تحديات كبيرة بسبب قيود الذاكرة والزمن الناتجة عن توكنات الصور ذات الدقة العالية. غالباً ما تعالج الطرق الحالية لتقليل عدد التوكنات (token reduction methods) هذه المشكلة من الناحية النظرية، لكنها تفشل في تقديم تسريع فعال بسبب تكاليف الهيكل الإضافية الناتجة عن تقليم التوكنات بعد التنفيذ (post-hoc pruning).
لكن مع ظهور إطار العمل الجديد CIVIC، يتغير المشهد بشكل كبير. يركز CIVIC على إنشاء مسارات متماسكة تقلل من استهلاك الذاكرة وتسرع زمن الاستنتاج. يتمثل الابتكار في الحفاظ على تمثيلات توكنات متماسكة عبر جميع مكونات نظام VLM، بما في ذلك مشفر الرؤية (vision encoder)، وطبقة الإسقاط (projection layer)، ومراحل ما قبل الملء في نموذج اللغة الكبير (Large Language Model - LLM)، وأخيراً ذاكرة التخزين المؤقت لـ KV (KV-cache).
هذا النظام الذكي يضمن عدم وجود وصول غير متسق للذاكرة، مما يتجنب أعباء فك الاندماج المحلية. وعند تقييمه على معمارية Qwen3-VL، أثبت CIVIC قدرته على تحويل تخفيضات التسلسل إلى كفاءة فعلية على مستوى الأجهزة، حيث تم تقليص ذاكرة KV-cache إلى حوالي ثلث الحجم الأساسي، مما أدى إلى تقليل زمن الاستنتاج من البداية إلى النهاية.
من خلال استخدام تقنيات مثل تقطير KL المعتمد على النص (text-aligned KL distillation) وسقف الاحتفاظ المكاني التكيفي (adaptive spatial retention floor)، تمكن CIVIC من تحقيق هذه الإنجازات دون التأثير على دقة النتائج أثناء معالجة المسائل متعددة النماذج والأرضيات البصرية الأكثر تعقيدًا.
CIVIC: ثورة جديدة في كفاءة نماذج الرؤية واللغة من خلال التسلسل المنهجي
تقدم ورقة بحثية جديدة مفهوم CIVIC، وهو إطار عمل مبتكر يسهم في تحسين كفاءة نماذج الرؤية واللغة، مع تركيز على تقليل زمن الاستنتاج وتحسين الأداء. سيوفر هذا الحل ثورة في طريقة معالجة المعلومات البصرية واللغوية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
