تعتبر نماذج اللغات الضخمة متعددة النماذج (Multimodal Large Language Models - MLLMs) واحدة من أعظم الابتكارات في مجال الذكاء الاصطناعي، حيث أثبتت نجاحها في مجالات متعددة بما فيها الاستشعار عن بعد (Remote Sensing - RS). ولكن، على الرغم من هذا النجاح، هناك جانب مهمل من هذه النماذج يتعلق بفهم النفي، وهو ما قد يعيق تطبيقاتها في العالم الحقيقي.

في مواقف الطوارئ، مثل تحديد الطرق غير المغمورة بالمياه خلال الفيضانات، تحتاج هذه الأنظمة إلى تحديد ما هو غير موجود أو خاطئ بدقة. ولتسليط الضوء على هذه الثغرة، تم تقديم RS-Neg، وهو أول معيار لتقييم فهم النفي عبر مهام مختلفة تتراوح من مستوى المناطق إلى مستوى المشاهد.

تم تصميم آلية تلقائية لجمع البيانات لصور الاستشعار عن بعد، حيث تستخدم نماذج اللغات الكبيرة لتوليد استفسارات نفي متنوعة، إضافة إلى تقديم وحدة تركيز بصري ديناميكية للتحقق من النتائج. نتائج التقييم كشفت أن نماذج RS المتقدمة تواجه صعوبات في فهم النفي، مما يؤدي إلى ظهور حالات هذيان وتدهور كبير في الأداء.

لتجاوز هذه العقبة، تم اقتراح NeFo، وهو طريقة جديدة للتعلم أثناء الاختبار، تدمج بشكل صريح الدور المنطقي للنفي في تحسين نموذج الذكاء الاصطناعي. وبتطبيق NeFo على نحو 5% فقط من العينات غير المعلَّمة، تم تحقيق تحسن ملحوظ في فهم النفي للنماذج، مع قدرة قوية على تعميم النتائج على مهام جديدة لم يُسبق رؤيتها.

مع اقترابنا من نشر الشيفرات والبيانات بعد القبول، يمكن أن نرى نهضة في استخدام الذكاء الاصطناعي في مجالات حيوية.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.