تشكل نماذج الرؤية واللغة والعمل (Vision-Language-Action Models) حجر الزاوية في الذكاء الاصطناعي العام، لكنها تواجه صعوبات في التوسع بسبب التكلفة العالية للحصول على بيانات تدريب معمارية. وبالتالي، يظهر الإطار الجديد ForgeVLA كحل مبتكر يمكنه تجاوز هذه العقبات.

تجمع ForgeVLA بين الذكاء الاصطناعي والتعلم الفيدرالي، حيث تستخدم الروبوتات المزودة برؤية في مجالات متنوعة لإنتاج أزواج وفيرة من بيانات الرؤية والعمل. لكن المشكلة تكمن في أن هذه البيانات لا يمكن تجميعها مركزيًا بسبب القيود المختلفة، كما أن هناك تباينًا كبيرًا في هذه البيانات.

يعمل ForgeVLA على معالجة هذه التحديات من خلال التعلم من أزواج الرؤية والعمل الموزعة دون الحاجة للتعليقات اليدوية. كل عميل في النظام مزود بمحدد تعليمات مدمج يربط بين أزواج الرؤية والعمل ومجموعة محددة مسبقًا من التعليمات، مما يعيد تكوين الثلاثيات الكاملة للرؤية واللغة والعمل (Vision-Language-Action Triplets).

علاوة على ذلك، تواجه ForgeVLA تحديًا خطيرًا يتجلى في انهيار ميزات الرؤية واللغة، وهو ما كان مهملًا في أبحاث VLA الفيدرالية السابقة. ويتم التخفيف من هذا من خلال دمج خسارة تخطيط متباينة على جانب العميل مع استراتيجية تجميع تكيفي على الخادم لتعلم تمثيلات تمييز المهام بكفاءة.

تظهر التجارب الواسعة عبر عدة معايير أن ForgeVLA يتفوق بشكل ملحوظ على القواعد الأخرى، مما يعزز من مصداقيته ويؤكد على أهمية كل مكون من مكوناته.

ما رأيكم في هذا التطور الثوري في مجال التعلم الفيدرالي؟ شاركونا أفكاركم في التعليقات!