في عصر تتصاعد فيه الابتكارات التكنولوجية، برزت نظم الرؤية-اللغة-الفعل الهرمية (Hi-VLA) كحلول واعدة لمواجهة تحديات معالجة الروبوتات المعقدة. حيث تعتمد هذه النظم على مخططي VLM (Vision-Language Models) من المستوى العالي لتفكيك المهام إلى أهداف فرعية تتعلق باللغة، ثم تنفيذها من خلال وحدات تحكم VLA (Vision-Language-Action) منخفضة المستوى.

وعلى الرغم من التقدم التجريبي السريع في هذا المجال، إلا أن هناك نقصاً في المبادئ التصميمية الموحدة لهذه الأنظمة. حيث تختلف نظم Hi-VLA الحالية في كيفية اختيارها وربط المخططين ووحدات التحكم وآليات الانتقال بينهما، بالإضافة إلى كيفية تمثيل الملاحظات والذاكرة في المخطط.

تقدم هذه الورقة دراسة شاملة لتصميم نظم Hi-VLA لأغراض التحكم في الروبوتات، حيث نجمع بين الوكلاء النموذجيين لهيكلة التحكم وفق نمط الخيارات. نقوم بتقييم الخيارات التصميمية الأساسية عبر المهام القصيرة والطويلة الأمد، والمهام التي تتطلب تفكيرًا عميقًا.

تُظهر تحليلاتنا كيفية تأثير اختيارات النموذج وآليات الواجهة على الأداء، حيث تؤدي تطبيق هذه المبادئ إلى تحسين نظام Hi-VLA بشكل كبير بالمقارنة مع التحكم المسطح أو الهيكل الهرمي المصمم بشكل ساذج. كما تثبت التجارب، سواء في محاكاة أو على روبوت ALOHA الحقيقي، أن النظام الجديد يعتبر أكثر فعالية وقوة.

تقدم نتائجنا أساسًا لبناء وكلاء Hi-VLA أكثر قدرة وموثوقية وبالتالي تجعلها مناسبة لمجموعة متنوعة من التطبيقات المعقدة. لمزيد من المعلومات ومقاطع الفيديو، يمكنك زيارة هذا الرابط.