في عالم الذكاء الاصطناعي، حيث يشهد تطوير نماذج الروبوتات تقدمًا مستمرًا، يبرز مشروع VISTA كخطوة نوعية جديدة. يعتمد هذا الإطار على واجهة تلاعب عالمية (Universal Manipulation Interface - UMI) التي تسهل جمع بيانات الروبوتات في البيئات الحقيقية دون الاعتماد على عمليات التحكم الآلي المحددة بالأجهزة. ورغم ذلك، تظل الاستفادة من بيانات UMI لتدريب نماذج رؤية-لغة-عمل (Vision-Language-Action - VLA) تحديًا كبيرًا يتطلب حلولًا مبتكرة.

تظهر هذه المقالة عددًا من التحديات الرئيسية التي تواجه استخدام بيانات UMI، حيث يتمثل الأول في عدم تطابق زوايا الرؤية الضيقة والمشوهة بالكاميرات ذات العدسات السمكية مع المسارات المعدة مسبقًا لنماذج VLA، مما يؤدي إلى صعوبة تعميم هذه النماذج في السيناريوهات الجديدة. التحدي الآخر هو أن المسارات التي يجمعها البشر قد تخالف القيود الحركية، مما يؤدي إلى تصرفات غير قابلة للتطبيق.

المبادرة الجديدة، VISTA، تقرأ هذه الفجوات من خلال تقديم ثلاثة مكونات متكاملة. أولاً، تقدم VISTA مجموعة بيانات VMI-VQA، وهي أول مجموعة بيانات كبيرة مخصصة لملاحظات الكاميرا ذات العدسات السمكية، مما يحسن توافق تمثيلات VLA مع البيانات المشوهة.

ثانياً، تم إنشاء خط أنابيب تحقق فيزيائي منظم، يقوم بالتحقق من مدى اكتمال البيانات وتصنيف كل مسار صالح بناءً على الاستمرارية، خطر الاصطدام الذاتي، وموثوقية التنفيذ قبل إدخاله التدريب.

أخيراً، يتم اعتماد وصفة تدريب مشتركة من مرحلتين تتعلم بشكل متزامن أسس رؤية-لغة انطلاقًا من UMI-VQA وتوقع الإجراءات استنادًا إلى المسارات المعتمدة.

تظهر التجارب أن دمج مجموعة UMI-VQA يعزز أداء السياسات بشكل ملحوظ، وأن درجات التحقق الفيزيائي تنبئ بنجاح عمليات النشر بشكل قوي. في السياقات المختلفة، من المهام البسيطة إلى التلاعب الواقعي، يتفوق VISTA بشكل كبير على نماذج أخرى قوية مثل π_{0.5} وLingBot-VLA وWall-X.

المعلومات المهمة هنا أن المشروع قد أطلق بشكل مفتوح مجموعة بيانات المسارات المعتمدة وخط أنابيب التحقق الفيزيائي، مما يتيح للمجتمع العلمي الوصول إليها والاستفادة منها. في ظل تلك الابتكارات، يبقى السؤال: كيف يمكن أن تساهم هذه التكنولوجيا المتقدمة في إحداث تغييرات في عالم الذكاء الاصطناعي؟ شاركونا آراءكم واجتراحاتكم في التعليقات!