في ظل التطورات السريعة في مجال الذكاء الاصطناعي، أصبحت نماذج الأساس (Foundation Models) تلعب دوراً حيوياً في تحويل كيفية تحليل بيانات مراقبة الأرض. تعتبر إمكانية التعلم من تغيرات البيانات الجغرافية المتعددة، مثل الصور الجوية والخرائط، تحدياً يتطلب تصميماً فعالاً ومرناً.

تحمل هذه النماذج تنوعاً هندسياً يبدأ من النماذج المعتمد على الترميز فقط (Encoder-Only) إلى نماذج الترميز-الترميز (Encoder-Decoder) وأنماط التعليم التلقائي المقنّع (Masked Autoencoding). هذا التنوع يخلق صعوبة في تقييم الأداء بشكل موحد. هنا، نقدم مقارنة مفيدة بين الهياكل الرائدة المصممة لأغراض التفكير الجغرافي متعدد الوسائط، مع التركيز على مرونة النماذج عبر تكوينات الطيف المختلفة.

لقد قمنا بتوحيد عملية التدريب باستخدام نفس الأهداف التعليمية الذاتية ومجموعات البيانات التدريبية لنقدم صورة دقيقة لأداء النماذج. وعبر تقييمات موحدة على معيار GEOBench لنماذج التصنيف والتجزئة، قدمت نتائجنا رؤى جديدة حول التوازن بين مرونة النموذج وتوافق الأنماط وأداء المهام التالية.

تسلط هذه الدراسة الضوء على نقاط القوة والقيود الهيكلية تحت ظروف التحكم، مما يوفر إرشادات عملية لبناء النماذج الجغرافية الحديثة التي تتمتع بقدرات قوية على التفكير متعدد الوسائط. ومع ازدياد أهمية تلك النماذج، يتوجه الباحثون نحو تحسين تصميماتها، ليكون لنتائجهم تأثير كبير على كيفية تحليل البيانات الجغرافية في المستقبل.