في عالم يتزايد فيه الاعتماد على تقنيات الذكاء الاصطناعي (AI)، يأتي نموذج PFCVR ليحدث ثورة حقيقية في ميدان استرجاع الصور المرتبطة بالمركبات باستخدام النصوص. يعتبر استرجاع المركبات (Vehicle Re-identification أو Re-ID) تحديًا كبيرًا، حيث يهدف إلى إيجاد الصورة الأكثر تشابهًا مع صورة معينة من بين تلك الملتقطة بواسطة كاميرات مختلفة.

توسع نموذج PFCVR هذه التقنية لاسترجاع المركبات ليس فقط من خلال الصور، ولكن أيضًا باستخدام الأوصاف النصية، مما يجعله مفيدًا للغاية في الحالات الحياتية الواقعية حيث تتوفر فقط أوصاف الشهود.

يعتمد نموذج PFCVR على بناء صور ونصوص مرتبطة على مستوى الأجزاء، حيث يقدم رموز استعلام قابلة للتعلم تجمع بين السياقات الخاصة بكل جزء والجملة الكاملة، مما يساعد في تحسين توافق ميزات الصورة البصرية. ويعمل النموذج أيضًا على توسيع هذه المطابقة المحلية من خلال وحدة استعادة القناع ثنائية الاتجاه، التي تسمح لكل من الصور والنصوص بإعادة بناء المحتوى الخاص بها تحت إشراف الآخر.

تم إنشاء مجموعة بيانات جديدة ضخمة باسم T2I-VeRW تحتوي على 14,668 صورة تغطي 1,796 هوية مركبة مع تعليقات توضيحية تفصيلية على مستوى الأجزاء. وقد أظهرت النتائج التجريبية أن نموذج PFCVR حقق دقة بلغت 29.2% في التصنيف الأول (Rank-1) على مجموعة بيانات T2I-VeRI، متفوقًا على أفضل الطرق المنافسة بنسبة 3.7%. أما على معيار T2I-VeRW الجديد، فقد حقق نموذج PFCVR دقة 55.2% في التصنيف الأول، مما يجعله يتفوق على مجموعة شاملة من الأساليب الحديثة في هذا المجال.

مع الأخذ في الاعتبار أن الكود البرمجي للنموذج سيتم الإفراج عنه قريبًا على GitHub، فإن هذا الابتكار يعد خطوة كبيرة نحو ممارسات أكثر ذكاءً في مجال استرجاع الصور باستخدام الذكاء الاصطناعي.