في عالم الذكاء الاصطناعي، تظهر نماذج الرؤية واللغة والعمل (Vision-Language-Action) كأحد الاتجاهات الواعدة في مجال القيادة الذاتية. ولكن، يواجه الكثير من هذه النماذج صعوبات في تقديم تمثيلات وسيطة موجهة للتخطيط، حيث تُظهر آلية التفكير النصي ‘Chain-of-Thought’ (CoT) عجزها في الحفاظ على الهيكل الزمني المكاني المستمر، ويظل التفكير اللاتيني العالم صعبًا عند استخدامه كشرط مباشر لتوليد الأفعال.

لتجاوز هذه التحديات، يقترح الباحثون نموذج CoWorld-VLA، وهو إطار عمل متعدد الخبراء لتفكير العالم في مجال القيادة الذاتية. يقوم هذا النموذج بتوفير تمثيلات عالمية تُستخدم كظروف واضحة لتوجيه تخطيط الأفعال. ومن خلال الشراكة بين معلومات من مصادر متعددة، يقوم CoWorld-VLA باستخراج معلومات مكملة للعالم ويشفّرها في رموز خبراء داخل النموذج.

تتضمن الرموز التي تم إنشاؤها أربعة أنواع رئيسية وهي: رموز التفاعل الدلالي، ورموز الهيكل الهندسي، ورموز التطور الديناميكي، ورموز مسار السائق، والتي تُعنى على التوالي بنوايا التفاعل، والهيكل المكاني، والديناميات الزمنية المستقبلية، وأهداف السلوك. في مرحلة توليد الأفعال، يستخدم CoWorld-VLA مخطط تجميع متعدد الخبراء قائم على الانتشار، الذي يتصل بسياق المشهد خلال عملية تنقية مشتركة لتوليد مسارات مركبات مستمرة.

أثبتت التجارب أن CoWorld-VLA يحقق نتائج تنافسية في كل من توليد المشاهد المستقبلية والتخطيط على معيار NAVSIM v1، مظهرًا أداءً قويًا في تجنب التصادم ودقة المسار. الدراسات التبخيرية أكدت فعالية الرموز الخبرات ودورها التكاملي كظروف تخطيط لتوليد الأفعال. قريبًا، ستتوافر الشيفرة المصدرية على [رابط الشيفرة المصدرية].