في عالم الذكاء الاصطناعي (AI)، يبحث الباحثون دائمًا عن طرق لجعل الروبوتات أكثر فاعلية في إنجاز مهام معقدة. يقدم فريق بحثي نموذج FurnitureVLA، وهو الأول من نوعه في الدراسة المنهجية وتجميع الأثاث باستخدام نماذج الرؤية-اللغة-العمل (Vision-Language-Action Models).

في هذا الصدد، يركز البحث على تجميع الأثاث عبر الأذرع الثنائية بدلاً من التقنيات المعتمدة على الأذرع الفردية التي كانت سائدة سابقًا. تم تطوير نظام محاكاة قابل للتوسع لجمع البيانات من الخبراء وتقييم الأداء، بجانب إنشاء نظام تشغيل عن بُعد باستخدام الواقع الافتراضي (VR) للتحكم ثنائي اليد بواسطة مشغل واحد، مما يسهل جمع العروض التوضيحية ذات الجودة العالية.

لكن التحدي الأكبر كان في معالجة تجميع الأثاث على مستوى حقيقي، والذي يمكن أن يتضمن حتى 7 مهام فرعية و1550 خطوة تحكم. لتحقيق ذلك، تم اقتراح نموذج VLA المحسن الذي يركز على التقدم، مما يساعد في التنبؤ بالإجراءات وإشارات التقدم المستمرة، مما يمكّن من الانتقال التلقائي بين المهام الفرعية وتقليل الأخطاء المتراكمة أثناء الأداء.

علاوة على ذلك، تمت دراسة عوامل التصميم المتعلقة بالإدراك والتحكم، والتي تؤثر بشكل كبير على الدقة في تجميع الأثاث على مستوى حقيقي. أثبت نموذج FurnitureVLA تحسين متوسط معدل النجاح من 48% إلى 80% مقارنة بالمستويات السابقة عبر ثلاثة أنواع من الأثاث. بينما تم التحقق من النجاح على منصة Kinova Gen3 الحقيقية، حيث كانت هناك انخفاض بنسبة 16% فقط في أصعب المهام.

المبتكِرون هنا لا يقتصرون على تحسين الأداء فقط، بل يخططون لتحسين التصميمات في مجال تجميع الأثاث بشكل عام، مما يفتح آفاقًا جديدة في تكنولوجيا الروبوتات.