تعتبر نماذج الرؤية واللغة بمثابة حجر الزاوية في قياس التشابه بين الأنماط المختلفة عبر فضاء تمثيلي موحد. ورغم ذلك، تعاني معظم مجموعات البيانات المتعلقة بتوافق الصور والنصوص أو تصنيف الصور متعددة الفئات من نقص في التقديرات الدقيقة للتطابق بين الأنماط، مما يُجبر الفضاء المستمر للتشابه على التقيد بحدود تصنيف ثنائية. هذا الانضغاط يُنتج عينات سلبية خاطئة ويؤثر سلبًا على أداء عموم المهام بين الأنماط.

في سعينا لحل هذه المشكلات، قمنا بتقديم تقنية جديدة تُدعى محول متغير لتمثيل التشابه بين الأنماط (VACSR). يتيح هذا الحل إعادة صياغة تطابق الصور والنصوص المعقد بنقص في الدلالات الدقيقة كمشكلة استدلال متغير، مما يخلق فضاءً كامنًا للتشابه بين الأنماط. بالإضافة إلى ذلك، يستخدم VACSR تقنيات تنظيمية لتخفيف الإفراط في التخصيص للبيانات الثنائية.

أثبتت التجارب التي أُجريت على استرجاع الصور والنصوص، والتعميم عبر المجالات، والتعميم من الفئات الأساسية إلى الفئات الجديدة فعالية هذه الطريقة وقدرتها القوية على التعميم. إن هذا التطور لا يُعد فقط خطوة للأمام بنماذج الذكاء الاصطناعي ولكنه يُعد أيضًا دعوة للجميع لاستكشاف إمكانيات جديدة في عالم التعلم الآلي واستخدامه في تطبيقاتهم المختلفة.