في عالم الذكاء الاصطناعي، تحقق نماذج الرؤية-اللغة-الإجراءات (Vision-Language-Action Models) إنجازات بارزة في توليد الحركات الذكية. ولكن، يواجه المطورون تحديات كبيرة في نشر هذه النماذج على الأجهزة الطرفية نظرًا لاحتياجاتها العالية من الموارد الحاسوبية. لحل هذه المشكلة، تم تطوير تقنية ActQuant، التي تقدم طريقة متقدمة لتقليل وزن النماذج بأقل من 4 بت.

تتميز ActQuant بإطار عمل موجه نحو الإجراءات بحيث تتضمن مرحلتين رئيسيتين: الأولى هي تخصيص عرض بت مشترك لاستيعاب كل مصفوفة وزن بناءً على مساهمتها في توقعات أفعال النموذج؛ والثانية تتمثل في تحسين مقاييس الكمية داخل المصفوفة، والتي تركز على الوزن الأكثر تأثيرًا في عمليات التحكم.

بالإضافة إلى ذلك، تم تطوير OmniModel.cpp، وهي مجموعة أدوات تحويلية تتيح استخدام النماذج في بيئات C/C++ بكفاءة عالية مع نوى منخفضة بت. وقد أثبتت التقييمات أن ActQuant هي التقنية الوحيدة التي تعمل عند أو أقل من 3 بت لكل وزن، مع الاحتفاظ بنسبة نجاح تقدر بـ 95% على معيار LIBERO. ومن المثير للاهتمام أن ActQuant تمكنت من ضغط الذاكرة من 14.3 جيجا بايت إلى 2.7 جيجا بايت، مما يظهر فعالية ملحوظة في الاستخدام.

في النهاية، لا تعكس ActQuant فقط تطور الذكاء الاصطناعي، بل تمثل أيضًا خطوة مهمة نحو الكفاءة والتوفير في الموارد، مما يجعلها مثالية للاستخدامات العملية والتجارية. كيف ترى تأثير هذه التقنية على مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!