تشكل نماذج اللغة والرؤية (Vision-Language-Action - VLA) نقطة تحول في عالم الذكاء الاصطناعي، حيث تدمج بين القدرة على فهم اللغة، ومعالجة المعلومات البصرية، وتنفيذ الأفعال بدقة. ومع ذلك، يواجه تطبيق هذه النماذج في الوقت الحقيقي تحديات تتعلق بالقدرة الحاسوبية، إذ يتطلب الأمر معالجة تدفقات بصرية مستمرة مما يؤدي إلى زيادة التكلفة التشغيلية.

في هذا الإطار، برزت تقنية تقليص الرموز البصرية (Visual Token Pruning) كحل واعد، حيث تهدف إلى تسريع نماذج اللغة والرؤية (Vision-Language Models - VLMs) عبر الاحتفاظ بالرموز البصرية الأكثر أهمية والتخلص من الرموز الغير ضرورية. ومع ذلك، فإن تطبيق هذه الطرق بشكل مباشر على نماذج VLA قد يؤدي إلى تدهور كبير في أداء التنفيذ الحركي.

تشير التحليلات إلى أن هذا التدهور يعود إلى تفاوت أنماط الانتباه في مراحل مختلفة من عملية الاستدلال، حيث تختلف الأنماط بين مرحلة ملء السياق (prefill stage) ومرحلة فك الشفرة الحركية (action-decode stage). وهنا يأتي دور VLA-Pruner الذي يمثل طريقة مبتكرة لتقليص الرموز من خلال التأكيد على المتطلبات البصرية لنماذج VLA.

يعتمد VLA-Pruner على تقييم أهمية الرموز البصرية من خلال المزج بين الإشارات الدلالية في مرحلة الملء والتفاعل الزمني للأفعال، ويستخدم استراتيجية "اجمع ثم فلتر" للاحتفاظ بالرموز الضرورية في نطاق معين من الجهد الحاسبي.

أظهرت التجارب أن VLA-Pruner يتفوق على العديد من الطرق الحديثة، حيث حقق سرعة تصل إلى 1.99 مرة مع الحفاظ على جودة التنفيذ الحركي. يفتح هذا التطور آفاقاً جديدة أمام الابتكارات في مجال الذكاء الاصطناعي، مما يمهد الطريق لتحقيق تجارب أكثر سلاسة وفعالية في التفاعل بين الروبوتات والبيئة المحيطة بها.

ما رأيكم في هذه التقنيات الجديدة؟ كيف يمكن أن تغيّر مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!