في عالم الروبوتات، يعد تحسين قدرة الروبوتات على القبض على الأشياء في بيئات مزدحمة من التحديات الكبرى. قدم الباحثون نموذجًا ثوريًا تحت اسم "Agentic RAG-VLM"، والذي يمثل إطار عمل موحد يمزج بين الفهم الدلالي بواسطة نماذج اللغات المرئية (VLMs) وتنفيذ القبضة المعتمدة على السياق الفيزيائي.
يعتمد نموذج Agentic RAG-VLM على ثلاثة مكونات مترابطة:
1. **RAG-aware Hierarchical Affordance (HAA-RAG)**: وهو مكون يقوم بتشفير وصفي لجوانب القبضة الأربعة، مثل النوع، المادة، الهشاشة، والمنطقة القابلة للإمساك. هذا المكون يعتمد على التوافق الوظيفي بدلاً من المظهر البصري عند استرجاع استراتيجيات القبضة.
2. **Scene Graph Constraint Reasoner**: يبني هذا المكون رسومات لعلاقات الفضاء بالاستناد إلى الإدراك من نماذج VLM، ويقوم بتحويل قيود التقارب، والاحتجاز، والدعم إلى تعديلات ملموسة في معلمات القبضة.
3. **Agentic Self-Reflective Pipeline**: يشتمل على تصنيف فشل من 14 نوعًا ونظام إعادة تجريب تكيفي على ثلاث مستويات، مما يساهم في تحسين دقة القبضة بشكل مغلق.
تم تقييم النموذج على مجموعة من 12 مهمة، شملت السيناريوهات التي تتطلب قبضة واحدة وتفاعلية ومهام طويلة الأجل. النتائج جاءت مذهلة، حيث حقق النموذج نجاحًا بنسبة 78.3%، مما يمثل زيادة ملحوظة بمقدار 53.3% مقارنة بالنماذج التقليدية المعتمدة على VLM.
بهذا الشكل، يؤكد نموذج Agentic RAG-VLM على أن استرجاع المعلومات القائم على المميزات الوظيفية، التفكير في رسوم العلاقات المكانية، والتعافي الفاعل هي جميعها ضرورية لتحقيق التحكم الفعال في الروبوتات في بيئات معقدة ومزدحمة.
اكتشاف مبتكر: نموذج Agentic RAG-VLM لتحسين قبضة الروبوتات في بيئات مزدحمة
استعرض فريق البحث نموذج Agentic RAG-VLM الجديد الذي يتيح تحسين قدرة الروبوتات على القبض على الأشياء في بيئات معقدة. إطار العمل هذا يدمج بين الفهم الدلالي والقدرة على التفاعل مع البيئة بشكل فعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
