في الآونة الأخيرة، حققت تقنيات التنقل القائم على الرؤية واللغة (Vision-Language Navigation - VLN) تقدمًا ملحوظًا بفضل النماذج اللغوية الكبيرة (Large Language Models) والنماذج متعددة الوسائط (Multimodal Models). تمكنت هذه النماذج من تمكين الوكلاء الذكيين من اتباع تعليمات اللغة الطبيعية في بيئات غير مألوفة دون الحاجة لتدريب محدد مسبقًا.
ومع ذلك، تعتمد معظم الطرق المستخدمة حاليًا على نماذج ضخمة، ولا تزال تتبع أسلوب التنفيذ المفتوح (Open-loop) الذي يعتمد على قرار تنفيذ يعتمد على الملاحظات والتوجيهات، مما يجعل هذه الأنظمة عرضة للأخطاء. حيث يمكن أن تؤدي الأخطاء الطفيفة في الإجراءات الوسيطة إلى انحرافات كبيرة في المسار الأساسي، مما يتسبب في فقدان الهدف بشكل سريع.
لمعالجة هذه القضايا، تم تقديم نظام CLOSER، وهو نهج مستقل عن سياسة تدريب محددة تضمن عمليات تفكير متكررة لتحقيق (Verification) موثوقة، واسترجاع مستهدف، وتصحيح الإجراءات قبل تنفيذها. يتكون نظام CLOSER-VLN من ثلاث مكونات رئيسية:
1. **المقوم الهرمي (Hierarchical Reasoner)**: الذي يساعد في توليد الإجراءات المحتملة استناداً إلى المعلومات المتاحة.
2. **التحقق من الإجراءات (Multidimensional Action Verifier)**: والذي يقوم بتقييم موثوقية الإجراءات المقترحة.
3. **المسترجع متعدد الوسائط المدفوع بالتحقق (Verification-triggered Multimodal Retriever)**: الذي يسترجع نماذج مستهدفة من بنك الذاكرة عند الحاجة.
أظهرت التجارب التي أجريت على معيار CityNav أن نظام CLOSER-VLN حقق نتائج ملحوظة بنسبة 32.01% في معدل النجاح و21.28% في نسبة المسار المحدد، مما يؤكد فعالية منهجية التفكير المغلق التي اعتمدها.
في النهاية، يمثل هذا التطور خطوة كبيرة نحو تحسين دقة نظم التنقل الجوي، مما يفتح الأفق لمزيد من التطبيقات المستقبلية في مجال الذكاء الاصطناعي. ماذا تعتقد عن هذا الابتكار؟ شاركونا آرائكم في التعليقات!
ثورة جديدة في التنقل الجوي: CLOSER-VLN لتعزيز عمليات التحقق والتنفيذ!
كشفت دراسة جديدة عن نظام CLOSER-VLN الذي يعيد تعريف التنقل بالاعتماد على اللغة والرؤية من خلال منهجية جديدة تتجاوز الطرق التقليدية. هذا النظام يعالج أخطاء التنفيذ الحرجة، مما يفتح آفاقاً جديدة في مجالات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
