تعتبر نماذج الرؤية واللغة (Vision-Language Models) من الأنظمة المتقدمة التي تهدف إلى دمج الفهم البصري مع معالجة اللغة، لكن دراسة جديدة سلطت الضوء على قيودها فيما يتعلق بتجنب التحيزات الجنسانية، خاصة عند معالجة المدخلات الغامضة.

عندما تكون التوجهات الجندرية واضحة، تنجح هذه النماذج غالبًا في تجنب التعبيرات المتحيزة، لكن الأمور تأخذ منحى مختلفًا عند التعامل مع حالات رمزية مثل صورة عامل يرتدي زيًا كاملًا أو شخصية تظهر من الخلف. في هذه الحالات، أظهرت الأبحاث أن النماذج تميل إلى انحيازات نمطية ترتبط بالذكور، مما يثير المخاوف حول دقة تمثيل النساء في السياقات الغامضة.

لتحليل هذه الظاهرة، قدم الباحثون مقياسًا جديدًا يسمى LALS (Latent Association Learning Score)، الذي يقيم العلاقات الداخلية للنماذج من خلال اختبار تفاعلات المفاهيم بين الرموز البصرية ومساحة النصوص. أظهرت النتائج أن هذه النماذج يمكن أن تسجل ارتباطات أنثوية داخليًا ولكنها قد تُخرج استجابات تتجه نحو الذكور.

التحليل الطبقي أشار إلى وجود فلتر غير متماثل، حيث يعزز الإشارة الذكورية بينما تنخفض أهمية الإشارة الأنثوية قبل توليد النتائج، مما يوضح كيف تؤثر العوامل الثقافية، مثل لون الملابس، على هذه الارتباطات.

هل ستتمكن نماذج الرؤية واللغة من تجاوز هذه التحديات، أم أن الحاجة لمزيد من البحث والتطوير أصبحت ملحة؟ شاركونا آرائكم في التعليقات.