في عالم الذكاء الاصطناعي، يبدو أن كل يوم يأتي بجديد، ومن أهم الابتكارات التي يجب علينا أن نوليها اهتماماً هو vla.cpp. يتميز هذا المحرك بتجميعه بين تقنيات الرؤية (Vision) واللغة (Language) والعمل (Action) بطريقة مميزة.

عادةً ما يتم تنزيل سياسات الرؤية واللغة والعمل (VLA) على شكل حزم تستخدم Python/PyTorch، مما يفترض وجود أجهزة كمبيوتر قوية تعمل بنظام GPU، وهو ما يعتبر تحدياً لأداء الروبوتات الحقيقية. لكن مع ظهور vla.cpp، أصبح لدينا محرك استدلال مكتوب بلغة C++، مما يجعله محمولاً وقابلاً للاستخدام على مجموعة واسعة من الأجهزة.

ما يجعل هذا المحرك فريداً هو أنه أول محرك من نوعه يتعامل مع أنماط استدلال VLA التي تتطلب تفاعلًا معقدًا بين المكونات المختلفة. حيث يستطيع هذا المحرك أن يعمل على سبعة نماذج مختلفة تشمل خمسة أسرّة أساسية وأربعة عائلات من رؤوس العمل، ويتم التواصل مع هذه النماذج من خلال بروتوكول موحد واحد.

على منصة LIBERO-Object، أظهر المحرك أداءً يضاهي أحدث المعايير، حيث تمكن من تحقيق نتائج مشابهة لمتطلبات الاستدلال في 199 من أصل 200 تجربة. علاوة على ذلك، يعتبر هذا المحرك قادراً على العمل بكفاءة عالية، حيث يمكنه تحقيق نجاح بنسبة 100% في تطبيقات BitVLA باستخدام ذاكرة بسعة 1.3 جيجابايت فقط.

ومع مرونة مدهشة، يمكن لهذا المحرك أن يعمل بسلاسة على ثلاثة مستويات من الأجهزة، بدءاً من أجهزة GPU التجارية إلى نماذج مدمجة بسعة 8 جيجابايت فقط. تظهر التحليلات أن الاستدلال لـ VLA يعتمد أكثر على قدرة المعالجة بدلاً من عرض النطاق الترددي، مما يجعل تحسين الأداء هو المفتاح لتحقيق أفضل النتائج.

أجرى الباحثون أيضاً اختبارات تحت الضغط على ذراع ALOHA للتحقق من قيود التأخير التي سيواجهها النموذج أثناء التخطيط ضد أهداف متحركة، مما يبرز أهمية التحسينات في الأداء.

لمن يرغب في الخوض في تفاصيل هذه التكنولوجيا المبتكرة، يمكنكم زيارة الموقع الرسمي للحصول على الشيفرة ومقاطع الفيديو التوضيحية وغيرها من الموارد القابلة للتكرار بالضغط هنا. هل أنتم مستعدون لاستكشاف مستقبل الروبوتات؟ شاركونا آرائكم في التعليقات!