في عالم الذكاء الاصطناعي، يظل استرجاع الصور المركبة (Composed Image Retrieval - CIR) أحد أبرز المعايير لقياس كفاءة الأنظمة. ويجمع هذا النظام بين إمكانية استخدام صورة مرجعية ونص وصف للمستخدمين، مما يتيح لهم البحث عن صور المستهدفة بشكل أكثر دقة وفاعلية. لكن يواجه العلماء والمطورون تحدياً كبيراً وهو تفتت فضاء التمثيل (Representation Space) في أساليب CIR الحالية، حيث تعتمد هذه الأساليب على نوعيات مختلفة من التشفير مما يؤدي إلى فجوات في التوافق بين الاستعلامات والأهداف.

لذا، تم تقديم إطار العمل الثوري CSMCIR الذي يُعتبر قفزة نحو الأمام في مجال استرجاع الصور. يعتمد هذا الإطار على ثلاثة مكونات متكاملة تسهم في تحسين عملية التوافق بين الاستعلامات والأهداف. يبدأ بإدخال استراتيجية توجيه جديدة تُعرف باسم Multi-level Chain-of-Thought (MCoT)، التي تُساعد نماذج اللغات الكبيرة متعددة الوسائط (Multimodal Large Language Models) في إنتاج عناوين متوافقة وسلسة للصور المستهدفة، مما يحقق التناغم بين الأنماط.

بعد ذلك، يأتي تصميم هيكل ثنائي متناظر (symmetric dual-tower architecture) حيث يتم استخدام Q-Former المتشارك في كلا الجانبين - الاستعلام والهدف - لضمان تمثيلات ميزات متسقة، مما يقلل الفجوة في التوافق. وأخيرًا، يتيح نظام الذاكرة الديناميكية المعتمد على الإنتروبيا (entropy-based, temporally dynamic Memory Bank) توفير عيّنات سلبية عالية الجودة مع الحفاظ على توافقها مع حالة النموذج المتطورة.

أظهرت التجارب المكثفة على أربعة مجموعات بيانات مرجعية أن CSMCIR يحقق أداءً رائدًا مقارنة بأساليب أخرى، بما في ذلك كفاءة تدريب عالية. وقد أكدت الدراسات المسبقة على فعالية كل مكون مقترح في هذا النظام الفريد. يعد CSMCIR خطوة هامة نحو تحقيق تقنيات استرجاع الصور الأكثر دقة وكفاءة في المستقبل.