تتميز نماذج اللغة والرؤية (Vision-Language Models) بأداء متعدد الأبعاد قوي، لكنها تعاني من تكلفة مرتفعة في التنفيذ، مما يجعل عمليات التشغيل أكثر تعقيدًا. إحدى المشكلات الكبرى هي أن عملية الكم (quantization) بعد التدريب غالبًا ما تؤدي إلى فقدان كبير في الدقة، مما يدفع الباحثين إلى استكشاف طرق جديدة لتحسين الأداء.
لتصحيح هذه الفجوة، نقدم تقنية GRACE، وهي إطار عمل متكامل يجمع بين تصفية المعرفة (knowledge distillation) والتدريب المعتمد على الكم (Quantization-Aware Training) بموجب مبدأ عنق الزجاجة المعلوماتي (Information Bottleneck). يعتمد هذا المبدأ على فكرة أن الكم يحدد سعة المعلومات، بينما تساعد تقنيات التصفية على توجيه ما يجب الاحتفاظ به ضمن هذه السعة.
في إطار عمل GRACE، يتم التعامل مع المُعلم (teacher) كشاهد للمعلومات المتعلقة بالمهام. نُدخل تقنية تصفية تفريق الثقة (confidence-gated decoupled distillation) لفلترة الإشراف غير الموثوق، واستخدام محاذاة النواة المركزية العلائقية (relational centered kernel alignment) لنقل هياكل الرموز البصرية، بالإضافة إلى تحكم تكيفي عبر الاسترخاء لاغرانج (Lagrangian relaxation) لتحقيق توازن مثالي بين الدقة والقيود السعة.
تظهر نتائج تجريبية واسعة النطاق على عائلات LLaVA وQwen أن نماذج INT4 الخاصة بنا outperform (تتفوق على) الأساسيات FP16 بشكل مستمر، مما يقرب أدائها من أداء المعلم. فعلى سبيل المثال، حققت LLaVA-1.5-7B 70.1 مقابل 66.8 على SQA، وQwen2-VL-2B حققت 76.9 مقابل 72.6 على MMBench. باستخدام نواة INT4 فعلية، نحقق زيادة ثلاثية في الإنتاجية مع تخفيض 54% في الذاكرة.
يعتبر إطار العمل المبدئي GRACE حلاً مُغريًا لنشر نماذج اللغة والرؤية بكفاءة عالية، خاصة في بيئات العمل التي تعاني من قيود الموارد.
هل أنتم مهتمون بالمزيد من التطورات في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات!
اكتشف تصميم GRACE: إطار عمل جديد لتعزيز أداء نماذج اللغة والرؤية بشكل فعّال!
تمثل تقنية GRACE نقلة نوعية في إدارة المعلومات لنماذج اللغة والرؤية، حيث توازن بين دقة الأداء وكفاءة الذاكرة. يمكن أن يؤدي هذا الابتكار إلى تحسين ملحوظ في النماذج ذات القدرات المحدودة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
