لقد أثارت نماذج الرؤية البصرية الأساسية (Vision Foundation Models) اهتماماً كبيراً في السنوات الأخيرة، خصوصًا لقدرتهما على استغلال كميات ضخمة من البيانات البصرية غير المصنفة. هذه الميزة تُعتبر حيوية في مجال الاستشعار عن بعد (Remote Sensing)، حيث تكلف عملية جمع البيانات الكثير وغالباً ما تتطلب معرفة متخصصة للتعليق على البيانات.
في الآونة الأخيرة، سعت نماذج الرؤية الكهربائية والبصرية إلى تعلم تمثيلات خاصة بالمجال من الصور الخاصة بالاستشعار عن بعد، ولكن التقييم الفعلي لقدرتها مقارنة بالنماذج العامة لا يزال محط تساؤل.
هذه الدراسة تسلط الضوء على مقارنة محكومة بين نماذج الرؤية الخاصة بالاستشعار عن بعد ونماذج الرؤية العامة في استرجاع الصور. من خلال استخدام نفس datasets وبروتوكولات التقييم، تم تقييم الكفاءة لأداء كل من النماذج المتخصصة والعامة.
النتائج أظهرت أن النماذج العامة لم تُظهر فقط أداء تنافسي، بل في بعض الحالات فاقت الأداء للنماذج المتخصصة. علاوة على ذلك، فإن النماذج المتخصصة غالباً ما تعاني من تدهور كبير عند التقييم عبر المشاهد المتنوعة، بينما أظهرت النماذج العامة استقراراً أفضل في نقل المعرفة.
تشير هذه النتائج إلى أن الاعتماد على التعليم المسبق فقط لا يضمن تحقيق تمثيلات أقوى للمعلومات في الاستشعار عن بعد. ولذلك، يُسلط الضوء على ضرورة تحسين استراتيجيات التعليم المسبق لنماذج الرؤية الخاصة بالاستشعار عن بعد للاستفادة بشكل أفضل من الخصائص الفيزيائية والفضائية والطيفية والجغرافية للبيانات.