تتقدم تقنيات الذكاء الاصطناعي بسرعة فائقة، ومن بين هذه الابتكارات، تبرز النماذج اللغوية البصرية (Vision-Language Models - VLMs)، التي تدمج المعرفة البصرية والنصية في تمثيلات موحدة تعتبر العمود الفقري لأنظمة الاسترجاع والتوصية الحديثة. لكن، تطرح الأبحاث الأخيرة تساؤلات مثيرة حول موثوقية هذه النماذج في استخدام معرفتها متعددة الوسائط.
في دراسة جديدة تم نشرها، تم الكشف عن ثغرة جوهرية في كيفية تطبيق VLMs للمعرفة متعددة الوسائط عند ترتيب الأصناف. من خلال تقنية تُسمى تحسين محركات التوليد المتعددة الوسائط (Multimodal Generative Engine Optimization - MGEO)، أظهرت النتائج أن شخصاً معادياً يمكنه التلاعب بقرارات ترتيب نموذج VLM عبر تصميم تداخلات بصرية غير مرئية وعبارات نصية سلسة تستغل تداخل المعرفة بين الأطراف.
تعتمد هذه الاستراتيجية على Optimization بديل يستهدف التفاعلات العميقة بين التمثيلات البصرية واللغوية، محققة تلاعبات في الترتيب تتجاوز بشكل ملحوظ تلك الناتجة عن الهجمات الأحادية الوسائط والأنماط التوجيهية المدعومة من نماذج تجارية قوية.
تكشف هذه النتائج أن جودة المحتوى الظاهرة ليست كافية لترقية الترتيب، بل يتوجب على النموذج التوافق مباشرة مع آلية استخدام المعرفة الداخلية الخاصة به. هذه الاكتشافات تطرح تساؤلات هامة حول صدقية ومتانة استخدام المعرفة في النماذج الأساسية متعددة الوسائط، كما تحفز الحاجة إلى تطوير آليات الدفاع لنظم استرجاع المعلومات متعددة الوسائط.
الشفرة الخاصة بالدراسة متاحة على GitHub ويمكن للباحثين والمطورين استخدامها لتطوير حلول جديدة.
تحسين محركات التوليد المتعددة الوسائط: كيف يمكن التلاعب بترتيب النماذج اللغوية البصرية؟
تظهر الأبحاث الجديدة ثغرة خطيرة في كيفية رتبة النماذج اللغوية البصرية (VLMs) للأصناف المتعددة الوسائط، مما يفتح المجال للتلاعبات التي قد تؤثر على أنظمة الاسترجاع والتوصية. ويتحدى هذا الاكتشاف مفاهيمنا حول موثوقية النماذج وتقنيات الحماية اللازمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
