في عالم الذكاء الاصطناعي، أصبحت الأنظمة التي تعتمد على دمج الرؤية واللغة والعمل (Vision-Language-Action systems) جزءاً لا يتجزأ من تجاربنا اليومية. هذه الأنظمة تم تصميمها لتنفيذ مهام متعددة الخطوات في بيئات متعددة الوسائط. ومع ذلك، غالباً ما كانت الأساليب المتبعة تعتمد على آليات تصحيح تالية أو تعمل ضمن تقسييم محدد مسبقاً للمهام وآليات المحاذاة.

إذا تم تحديد خطوة متوسطة بشكل خاطئ، فإن الأخطاء المحلية تنتشر عبر الخطوات التالية، مما يتسبب في فشل متسلسل. هنا تأتي أهمية تقنية ReCAPA، التي اقترحت هيكل المحاذاة والتخطيط التنبؤي، والذي يستخدم تقنيات التنبؤ والمقارنة لتعديل الانحرافات على ثلاثة مستويات: الأفعال، والغايات الفرعية، والمسارات.

تعزز المحاذاة الدلالية في جميع المستويات باستخدام وحدة تعتمد على طريقة Sinkhorn ووحدة Score-field. كما يتم تحديث مولد الأفعال بشكل مشترك خلال فترة التدريب، مما يتيح له ضبط الخطوات الدقيقة للبقاء متماشياً مع نية النظام العامة.

وأيضاً، تم تقديم مقياسين جديدين لتحديد كيفية انتشار الأخطاء وعملية الاسترداد في المهام، مما يعكس كيف تنتشر الأخطاء وتتناقص مع مرور الوقت.

أثبتت التجارب أن تقنية ReCAPA تحقق نتائج تنافسية ملحوظة على منصات تقييم العوامل المتجسدة مثل VisualAgentBench وMineDojo وAI2-THOR، متفوقة على نماذج اللغة الكبيرة (Large Language Models) التجارية والمفتوحة المصدر.

إنها خطوة جديدة نحو مستقبل أكثر دقة وقدرة على التحكم في الأخطاء في عالم الذكاء الاصطناعي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.