تتميز نماذج اللغة والرؤية (Vision-Language Models) بأداء متعدد الأبعاد قوي، لكنها تعاني من تكلفة مرتفعة في التنفيذ، مما يجعل عمليات التشغيل أكثر تعقيدًا. إحدى المشكلات الكبرى هي أن عملية الكم (quantization) بعد التدريب غالبًا ما تؤدي إلى فقدان كبير في الدقة، مما يدفع الباحثين إلى استكشاف طرق جديدة لتحسين الأداء.

لتصحيح هذه الفجوة، نقدم تقنية GRACE، وهي إطار عمل متكامل يجمع بين تصفية المعرفة (knowledge distillation) والتدريب المعتمد على الكم (Quantization-Aware Training) بموجب مبدأ عنق الزجاجة المعلوماتي (Information Bottleneck). يعتمد هذا المبدأ على فكرة أن الكم يحدد سعة المعلومات، بينما تساعد تقنيات التصفية على توجيه ما يجب الاحتفاظ به ضمن هذه السعة.

في إطار عمل GRACE، يتم التعامل مع المُعلم (teacher) كشاهد للمعلومات المتعلقة بالمهام. نُدخل تقنية تصفية تفريق الثقة (confidence-gated decoupled distillation) لفلترة الإشراف غير الموثوق، واستخدام محاذاة النواة المركزية العلائقية (relational centered kernel alignment) لنقل هياكل الرموز البصرية، بالإضافة إلى تحكم تكيفي عبر الاسترخاء لاغرانج (Lagrangian relaxation) لتحقيق توازن مثالي بين الدقة والقيود السعة.

تظهر نتائج تجريبية واسعة النطاق على عائلات LLaVA وQwen أن نماذج INT4 الخاصة بنا outperform (تتفوق على) الأساسيات FP16 بشكل مستمر، مما يقرب أدائها من أداء المعلم. فعلى سبيل المثال، حققت LLaVA-1.5-7B 70.1 مقابل 66.8 على SQA، وQwen2-VL-2B حققت 76.9 مقابل 72.6 على MMBench. باستخدام نواة INT4 فعلية، نحقق زيادة ثلاثية في الإنتاجية مع تخفيض 54% في الذاكرة.

يعتبر إطار العمل المبدئي GRACE حلاً مُغريًا لنشر نماذج اللغة والرؤية بكفاءة عالية، خاصة في بيئات العمل التي تعاني من قيود الموارد.

هل أنتم مهتمون بالمزيد من التطورات في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات!