مع تطور الذكاء الاصطناعي، ظهر نموذج مبتكر جديد يدعى توليد تعليمات الملاحة البصرية المشروطة بالأهداف (GoViG). هذه التقنية تهدف إلى إنشاء تعليمات متماسكة للملاحة تعتمد بالكامل على المشاهد البصرية الإيجوسنترية (Egocentric) لحالات البداية والأهداف. بينما كانت الدراسات السابقة تعتمد على مدخلات منظمة كالتعليقات التوضيحية البيانية أو خرائط البيئة، تعزز GoViG قدرتها على التكيف مع البيئات غير المعروفة وغير المنظمة من خلال استثمار البيانات البصرية الخام.

تعتمد طريقة GoViG على تقسيم المهمة إلى مهمتين مترابطتين: أولاً، تصور الملاحة، والذي يتضمن توقع الحالات البصرية الوسيطة التي تربط بين وجهتي البداية والهدف. ثانياً، توليد التعليمات، الذي يتطلب صياغة تعليمات مترابطة تستند إلى المرئيات الملاحظة والمتوقعة. يتم دمج هاتين المهمتين ضمن نموذج لغوي كبير (Large Language Model) ذو آلية تقدمية (Autoregressive) تم تدريبه بأهداف مصممة خصيصاً لضمان الدقة المكانية والوضوح اللغوي.

لتوسيع نطاق الأداء، تم تقديم استراتيجيتين جديدتين للتفكير متعدد الوحدات: التفكير من خلال مرحلة واحدة (One-pass Reasoning) والتفكير المتداخل (Interleaved Reasoning) لمحاكاة الإدراك البشري التدريجي أثناء الملاحة. لتقييم فعالية هذه الطريقة، تم اقتراح مجموعة بيانات R2R-Goal التي تجمع بين مسارات متنوعة من العالم الحقيقي والتجارب الاصطناعية. تشير النتائج التجريبية إلى تحسن كبير في الأداء مقارنة بأحدث الأساليب، حيث أظهرت نتائج كبير في نقاط BLEU-4 وCIDEr بالإضافة إلى قدرة قوية على التعميم عبر مجالات مختلفة.

هل يمكن أن تكون GoViG خطوة نحو المستقبل في مجال الملاحة الذكية؟ شاركونا آراءكم حول هذا الابتكار في التعليقات!