تُظهر نماذج الرؤية واللغة (Vision-Language Models / VLMs) إمكانيات قوية في مجموعة متنوعة من المهام متعددة الوسائط. ومع ذلك، أظهرت الأبحاث الأخيرة أن هذه النماذج، مثل CLIP، تواجه صعوبات في فهم التعبيرات السلبية، والتي تُعتبر شائعة في اللغة الطبيعية. في هذا الإطار، تم تقديم نموذج Omni-NegCLIP، وهو نموذج مُعدَّل من CLIP يهدف إلى تعزيز فهم النموذج لنوعين من النفي: النفي القائم على الوجود والنفي القائم على الغياب.

يتعلق النفي القائم على الوجود بالتعبيرات السلبية عن الأشياء التي توجد فعلاً في الصورة، بينما يتعلق النفي القائم على الغياب بأشياء قد توجد بشكل معقول في الصورة ولكنها في الواقع غير متواجدة. لتحقيق هذا الهدف، أجرى الباحثون تعديلات على دالة فقدان المعلومات التنافسية (InfoNCE) الأصلية لنموذج CLIP.

تم تصميم هدف تنافسي قائم على الوجود يقرب تمثيلات الصور من تمثيلات النصوص الأصلية بينما يبعدها عن النصوص السلبية المقابلة، بالإضافة إلى هدف تنافسي قائم على الغياب يضمن توافق تمثيلات الصور مع النصوص الأصلية والنصوص السلبية القائمة على الغياب، مع الحفاظ على تمييز دلالي بين النوعين من تمثيلات النص.

استنادًا إلى ملاحظاتهم حول قدرة طبقات التحويل الأمامية في مشفر النصوص في CLIP على تعلم النصوص السلبية بشكل أفضل مقارنةً بالطبقات اللاحقة، قام الباحثون بتحسين هذه الطبقات في كل خطوة تدريب باستخدام الهدف التنافسي المشترك.

أظهرت النتائج التجريبية أن نموذج Omni-NegCLIP، مقارنةً بنموذج CLIP المدرب مسبقًا، يُحسن الأداء على مهام النفي القائم على الوجود بنسبة تصل إلى 52.65% وعلى مهام النفي القائم على الغياب بنسبة تصل إلى 12.50%، دون التضحية بالقدرة العامة في استرجاع الصورة والنص، بل حتى تحسينها بنسبة تصل إلى 19.62%.

يلعب هذا النموذج الجديد دورًا حيويًا في توسيع فهم النماذج لمهام النفي المتعددة ويُظهر قدرة شاملة لتلبية تحديات اللغة الطبيعية.