أصبح عالم الروبوتات يشهد ثورة حقيقية بفضل الابتكارات الجديدة، حيث تم تقديم إطار عمل متكامل يربط بين الرؤية واللغة والعمليات. هذا الإطار الذي تم تطويره استجابة لتحدي CMU للرؤية واللغة والعمليات (Vision-Language-Action) يُمكن الروبوتات من تنفيذ مهام معقدة بناءً على تعليمات اللغة الطبيعية بطريقة سلسة وفعّالة.
يعتمد النظام على هيكل معياري يتضمن عدة مكونات تتضافر سوياً لتحقيق أهداف معينة، حيث يدمج بين توجيه الخرائط البيئية، معالجة الأسئلة، والتنقل في بيئات داخلية. تتم عمليات الإطار في مسارين متوازيين: الأول هو مسار الإدراك الذي يبني خريطة فوكسيتيك دلالية (semantic voxel map) من خلال استخدام تغذيات الكاميرا في الوقت الفعلي والاعتماد على تقنية OwlViT. أما المسار الثاني، فهو معالجة اللغة التي تقوم بتصنيف أوامر المستخدم باستخدام نموذج للرؤية واللغة (Vision-Language Model).
تعمل الخريطة تحت قيود زمنية معينة؛ حيث يتجه النظام إلى استخدام خريطة جزئية إذا ما تم الوصول إلى حد استكشاف يصل إلى 500 ثانية. ومن بعد ذلك، يتم تأكيد الاستفسار (query) المحدد في السياق الهندسي والدلالي للخريطة لتوليد إشعار تفصيلي للنموذج اللغوي المرئي (VLM). هذا يثمر عن مخرجات قابلة للتنفيذ، مما يظهر حلاً مثيرًا لجسر الفجوة بين اللغة البشرية والأفعال الروبوتية.
مع هذه التطورات، نستطيع أن نتساءل: كيف سيؤثر هذا الإطار الجديد على مستقبل الروبوتات والتفاعل البشري؟
إطار عمل ثوري يجمع بين الرؤية واللغة والروبوتات لإنجاز المهام الداخلية!
تقديم نظام متكامل لمواجهة تحدي CMU للرؤية واللغة والعمليات، يتيح لوكيل مستقل تنفيذ مهام معقدة بناءً على تعليمات اللغة الطبيعية. أظهر الإطار المعماري المرن قدرات مذهلة في الربط بين اللغة والعمل الروبوتي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
