مع تزايد استخدام نماذج اللغة والرؤية (Vision-Language Models) في تحليل الصور واتخاذ القرارات، أصبح من الضروري فهم كيفية تشكيل هذه النماذج لرؤيتها البصرية. حيث تتواجد ملايين الصور على الإنترنت، تم تصميم الكثير منها للاستخدام البشري، لكن الآن تحللها وكالات الذكاء الاصطناعي. وبالتالي، كيف تؤثر هذه النماذج على قرارات المستخدمين بشأن ما يجب النقر عليه أو شراؤه؟

في دراسة حديثة، قدم الباحثون نموذجًا جديدًا لفهم اختيارات VLMs من خلال وضعها في مهام اختيار صورة محكومة. يقوم الباحثون بتعديل المدخلات بطريقة منهجية، بحيث يمكنهم استنتاج تفضيلات النماذج من خلال تحليل الخيارات التي تقوم بها. الفكرة الرئيسية هنا هي اعتبار دالة قرار النموذج كـ "منفعة بصرية كامنة" يمكن الكشف عنها عن طريق تفضيلات مكشوفة.

بدايةً، استخدم الباحثون صورًا شائعة مثل صور المنتجات، وأطلقوا طرقًا جديدة لتحسين التعديلات البصرية. يتم تطبيق تعديلات متعددة مثل تغيير الإضاءة أو الخلفية بشكل تكراري، وهذا يساعد في تقديم تعديلات بصرية مثيرة للاهتمام باستخدام نماذج توليد الصور. وبفضل اختبارات واسعة النطاق على نماذج VLMs المتقدمة، استعادت التعديلات المحسنة بشكل ملحوظ احتمالية الاختيار بين الصور.

علاوة على ذلك، تم تطوير خط أنابيب تلقائي للتفسير لفهم التفضيلات البصرية بشكل أفضل. يساهم ذلك في الكشف عن قضايا الأمان وعيوب النموذج قبل حدوثها في العالم الحقيقي، مما يعزز عملية التدقيق والمراقبة النشطة لوكالات الذكاء الاصطناعي المعتمدة على الصورة.

في النهاية، يطرح هذا البحث سؤالاً مهما: كيف يمكن استخدام هذه المعرفة لتحسين جودة التجارب الرقمية وزيادة أمان أنظمة الذكاء الاصطناعي؟

ما رأيكم في هذه التطورات الجديدة؟ شاركونا آراءكم في التعليقات!