في عالم التقنية الحديثة، يتزايد الاعتماد على الذكاء الاصطناعي والأنظمة الذكية في مختلف المجالات، ومن بين تلك المجالات المهمة هو التعرف على الشخصيات (Re-identification). يُعتبر الجمع بين التعرّف القائم على الصور (Image-based ReID) والتعرّف القائم على النصوص (Text-based ReID) تحدياً كبيراً بسبب الفجوات النمطية والأهداف التدريبية المتناقضة.

ترتكب هذه الدراسة الحديثة في هذا الإطار بعمق في تحليل الفجوات الأساسية بين النوعين من التعرّف وتحديات تحسينهما. فبينما يركز التعرّف القائم على الصور على ثبات الهوية عبر صور نفس الشخص، يدفع التعرّف القائم على النصوص من خلال أوصاف نصية فريدة ترتبط بخصائص بصرية معينة.

تشير النتائج التفصيلية إلى أن معالجة كل نوع بشكل منفصل قد تؤثر سلبًا على جودة التمثيل المطلوبة للنموذج الآخر. لذلك، تم اقتراح طريقة تدريب جديدة ذات مرحلتين منفصلتين تهدف إلى تحسين التمثيلات المشتركة بين الصور والنصوص. يعتمد هذا النهج على ت encoder بصري واحد يدعم كلا من البحث على أساس الصور والنصوص، مما يتجنب التداخل بين المهام أثناء التدريب.

عبر تجارب مكثفة وباستخدام تكوينات متعددة، تم إثبات أن مرحلة التدريب المبدئية على التعرّف القائم على الصور تحسن من القدرة على التعميم للبيانات المشتقة من النصوص. بالإضافة إلى ذلك، وُجد أن دمج الإشراف النصي أثناء تدريب ال encoder البصري يعزز الأداء في كلا النوعين من التعرّف.

تأمل هذه الورقة أن تقدم رؤى جديدة تمثل خطوة مهمة نحو نظم التعرف الموحد والبحث عبر الوسائط المتعددة بشكل عام. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.