تُعتبر نماذج الرؤية واللغة (Vision-Language Models) من أبرز الإنجازات التكنولوجية في مجال الذكاء الاصطناعي، إذ برعت في فهم المعلومات متعددة الأبعاد. لكن، وعلى الرغم من هذه النجاحات، إلا أن تلك النماذج لا تزال تعاني من تحديات في التخطيط الفراغي المرئي (Visual Spatial Planning).

هذه التحديات تتجلى في ما يُعرف بفجوة الإدراك-التفكير (Perception-Reasoning Modality Gap)، حيث يتطلب التخطيط البصري من النماذج استنتاج الهياكل الضمنية من البيانات البصرية، ثم التفكير في هذه الهياكل لاستنتاج إجراءات صالحة. في المقابل، يُسهل التخطيط الرمزي (Symbolic Planning) عملية الاستخدام المباشر للأشياء والمحددات.

للتغلب على هذه التحديات، قدّم الباحثون تقنية جديدة تُسمى MGSD، وهي إطار عمل للتعلم الذاتي يدرك الفجوات بين الطرق المعرفية. يتكون هذا الإطار من مرحلتين:
1. **مرحلة التأسيس**: حيث يتم تزويد النموذج المرئي بتمثيلات موثوقة للحالات، مما يقلل من الضوضاء الإدراكية.
2. **مرحلة المعلم المتميز**: حيث يتم انتقال مهارات التخطيط عبر استخدام البيانات الرمزية للمراقبة أثناء عملية التدريب، مما يضمن أن تكون استنتاجات النموذج المرئي دقيقة.

تظهر التجارب التي أجريت على معايير التخطيط البصري أن تقنية MGSD قد حسنت أداء التخطيط بشكل ملحوظ ضمن نماذج مختلفة، حيث ارتفعت المتوسطات بشكل كبير تصل إلى 19.3% و18.4% على نماذج مختلفة بفضل تحسين استرجاع الحالة البصرية والتفكير في المسارات المثلى. هذه النتائج تدعم فكرة أن الفهم الأمثل للحالات القابلة للعمل يسهم بشكل كبير في تحسين استراتيجيات التخطيط.

لمزيد من التفاصيل، يمكنكم زيارة المشروع على GitHub هنا. ما رأيكم في هذه التطورات؟ شاركونا في التعليقات.