تتقدم تقنيات الذكاء الاصطناعي بسرعة فائقة، ومن بين هذه الابتكارات، تبرز النماذج اللغوية البصرية (Vision-Language Models - VLMs)، التي تدمج المعرفة البصرية والنصية في تمثيلات موحدة تعتبر العمود الفقري لأنظمة الاسترجاع والتوصية الحديثة. لكن، تطرح الأبحاث الأخيرة تساؤلات مثيرة حول موثوقية هذه النماذج في استخدام معرفتها متعددة الوسائط.

في دراسة جديدة تم نشرها، تم الكشف عن ثغرة جوهرية في كيفية تطبيق VLMs للمعرفة متعددة الوسائط عند ترتيب الأصناف. من خلال تقنية تُسمى تحسين محركات التوليد المتعددة الوسائط (Multimodal Generative Engine Optimization - MGEO)، أظهرت النتائج أن شخصاً معادياً يمكنه التلاعب بقرارات ترتيب نموذج VLM عبر تصميم تداخلات بصرية غير مرئية وعبارات نصية سلسة تستغل تداخل المعرفة بين الأطراف.

تعتمد هذه الاستراتيجية على Optimization بديل يستهدف التفاعلات العميقة بين التمثيلات البصرية واللغوية، محققة تلاعبات في الترتيب تتجاوز بشكل ملحوظ تلك الناتجة عن الهجمات الأحادية الوسائط والأنماط التوجيهية المدعومة من نماذج تجارية قوية.

تكشف هذه النتائج أن جودة المحتوى الظاهرة ليست كافية لترقية الترتيب، بل يتوجب على النموذج التوافق مباشرة مع آلية استخدام المعرفة الداخلية الخاصة به. هذه الاكتشافات تطرح تساؤلات هامة حول صدقية ومتانة استخدام المعرفة في النماذج الأساسية متعددة الوسائط، كما تحفز الحاجة إلى تطوير آليات الدفاع لنظم استرجاع المعلومات متعددة الوسائط.

الشفرة الخاصة بالدراسة متاحة على GitHub ويمكن للباحثين والمطورين استخدامها لتطوير حلول جديدة.