في عصر الذكاء الاصطناعي الحديث، تعتمد أنظمة استعادة المعلومات متعددة الوسائط (Multimodal Retrieval-Augmented Generation - RAG) بشكل متزايد على تقنيات الربط بين الرؤية واللغة، حيث تُستخدم الأدلة النصية الخارجية لتحديد الاستفسارات المرئية. على الرغم من توفر دراسات ضد خصوم تستهدف هذه الأنظمة، إلا أن الهجمات التي تستهدف مرحلة استعادة الأدلة في نماذج استشعار عن بُعد متعددة الوسائط لم تُستكشف بالشكل المناسب.

لملء هذا الفجوة، قام الباحثون بتقديم هجوم CloudWeb، الذي يهدف إلى اختطاف استعادة الغلاف الجوي من خلال تعديل الصورة المدخلة فقط، مع الحفاظ على عمل المُستخرج (Retriever) والمولد (Generator) وقاعدة المعرفة (Knowledge Base) بشكل ثابت. يقوم CloudWeb بتغطية الصور الخاصة بالاستشعار عن بُعد بأنماط مشابهة للسحب والضباب، حيث يتم تحسين هذه التغييرات وفق هدف يتجه نحو تعزيز الأدلة الجوية المستهدفة، ويقلل من الأدلة المصدرية، ويضمن فصل الترتيب، ويقنن الطبيعة الشاملة للمحتوى.

لم يُبدِ الباحثون دراسات سابقة تسلط الضوء على اختطاف أدلة الغلاف الجوي في نموذج الاستشعار عن بُعد المتعدد الوسائط RAG، مما يجعل هذا البحث رائداً في مجال يزداد أهمية. وتم تقييم CloudWeb باستخدام سبعةdatasets مختلفة لنماذج استشعار عن بُعد متعددة الوسائط، حيث أظهرت النتائج تفوقاً واضحاً في الأداء عند مقارنة النظام بنماذج استعادة المعلومات التقليدية والتغييرات العشوائية وحالات السحب الثابتة.

فمثلاً، على نموذج GeoRSCLIP ViT-B/32، ارتفعت دقة استعادة الأدلة الجوية من 0.71% إلى 43.29%! كما أظهرت النتائج النهائية تحولات واضحة في التجهيزات الجوّية، مما يستدعي الانتباه إلى كيفية تأثر نتائج الاستجابة النهائية في أنظمة RAG استناداً إلى التغييرات الطبيعية في الغلاف الجوي قبل بداية التوليد. هذه النتائج تكشف عن نقطة ضعف عملية؛ تغييرات الغلاف الجوي الطبيعية يمكن أن تضعف عملية استعادة الأدلة قبل أن تبدأ عملية التوليد.