تسعى النماذج الضخمة للغات والرؤية (LLVM) حاليًا إلى إحداث ثورة في مجال التعرف التلقائي على الأهداف (ATR). ومع تزايد أنظمتها المتقدمة مثل ChatGPT وGPT-4 من OpenAI، أصبحت هذه الأدوات قادرة على تحليل النصوص والصور بشكل متكامل، مما يفتح آفاقًا واسعة في مجالات متعددة.
تظهر الأبحاث الحديثة التي تعتمد على هيكلية المحولات (Transformers) تحسنًا ملحوظًا في مهام الإدراك الجغرافي، مما يعكس أهمية هذا المسار البحثي. أحد هذه الاتجاهات هو تطبيق LVM في تسمية الصور المستمدة من استشعار عن بُعد، بالإضافة إلى طرح الأسئلة والإجابة عنها بصريًا (Visual Question-Answering - VQA)، مع التركيز على الصور الملتقطة بواسطة رادار الفتحة الاصطناعية (Synthetic Aperture Radar - SAR).
لقد قمنا بتطوير معيار للتدريب والتقييم يعتمد على مجموعة بيانات MSTAR العامة، والذي تم توسيعه ليشمل نصوص وصفية وأسئلة وإجابات تتعلق بمهام VQA. تهدف مجموعتنا التحديّة إلى دفع حدود قدرات LVM في التعرف على تفاصيل معقدة في صور SAR.
باستخدام تقنيات تحسين المعلمات، تمكنا من تحقيق دقة تصل إلى 98% في تحديد خصائص الأهداف الدقيقة. لقد ناقشنا إعداد بياناتنا والتجارب المرتبطة بها، مع تسليط الضوء على المخاطر المحتملة التي قد تؤدي إلى استنتاجات مضللة. يعد التعرف بدقة وتفريق أنواع المركبات العسكرية في بيانات SAR تحديًا حرجًا، خاصةً في ظروف بيئية معقدة. قد يتطلب إتقان هذه المهارة من محلل بشري تدريبا يمتد لعدة أشهر وسنوات من الممارسة.
تمثل هذه الأبحاث جهدًا فريدًا لتطبيق LVM في تطبيقات SAR، مما يسهم في تعزيز جهود الاستشعار عن بُعد للمساعدة في المجالات العسكرية والاستخباراتية.
نموذج لطرح أسئلة حول الرؤية واللغة لتعزيز التعرف التلقائي على الأهداف العسكرية!
في تحول ملحوظ، تدمج النماذج الضخمة للغات والرؤية (LLVM) الذكاء الاصطناعي مع تقنيات التعرف على الأهداف العسكرية. شاهدوا كيف تحقق هذه النماذج دقة متقدمة تصل إلى 98%!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
