في الوقت الذي تُظهر فيه نماذج الرؤية-لغة-فعل (VLA) قدرة فعالة في تنفيذ إجراءات الروبوت، لا تزال هذه النماذج تواجه تحديات كبيرة في المهام ذات الأفق الطويل. فالعبء المزدوج للتخطيط المغلق الممتد وعمليات جسدية متنوعة يعد عائقًا رئيسيًا. من هنا، تأتي الابتكارات الجديدة التي تُعرف باسم VLAs-as-Tools، وهي استراتيجية مبتكرة تهدف إلى توزيع هذا العبء بطريقة فعالة.
تعمل هذه الاستراتيجية على تقسيم الأدوار، حيث يتولى وكيل ذو نموذج رؤية-لغة (VLM) عالية المستوى مسؤولية تحليل المشهد، والتخطيط العالمي، واستعادة المعلومات، في حين تتولى أدوات VLA المتخصصة تنفيذ المهام الجسدية المحلية. ولزيادة انسيابية التخطيط مع تنفيذ أدوات VLA في المهام الطويلة الأمد، تم تقديم واجهة عائلية لأدوات VLA تتيح اختيار الأدوات بوضوح وتقدم تغذية راجعة حول تقدم التنفيذ.
هذا التوجه الجديد يتيح تخطيط الوكيل بكفاءة عند حدوث الأحداث دون الحاجة إلى المراقبة المستمرة. وفي سبيل الحصول على أدوات VLA المتخصصة التي تتبع دعوات الوكيل بدقة، تم اقتراح أسلوب تدريب بعدي متوافق مع الأدوات (TAPT) الذي ينشئ وحدات تدريب مترابطة للامتثال للإرشادات ويستخدم موصلات بقايا عائلة الأدوات للتخصص الكفء.
أظهرت التجارب أن استخدام VLAs-as-Tools قد زاد من معدل النجاح بمقدار 4.8 نقاط على LIBERO-Long و23.1 نقطة على RoboTwin، بالإضافة إلى تحسين موثوقية الدعوات بمعدل 15.0 نقطة كما تم قياسه بواسطة معدل غير المتحيز. من المقرر توفر الشيفرة البرمجية قريبًا، مما يفتح الأبواب لمزيد من الابتكارات في هذا المجال.
نحو وكلاء مدمجين ذوي أفق طويل باستخدام نماذج الرؤية-لغة-فعل المتوافقة مع الأدوات
تقدم الأبحاث الجديدة في نماذج الرؤية-لغة-فعل (VLA) استراتيجية مبتكرة لتحسين الأداء في المهام الطويلة الأمد. من خلال توزيع العبء بين نموذج الرؤية-لغة ونماذج أدوات متخصصة، تحقق هذه الاستراتيجية نتائج ملحوظة في زيادة معدلات النجاح.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
