في عالم الذكاء الاصطناعي، يمثل استرجاع الصور تحديًا فنيًا يتطلب دقة متناهية وقدرة على فهم المعاني السياقية. واحدة من التقنيات الحديثة التي تلقت الاهتمام هي تقنية استرجاع الصور المركبة بلا إشراف (Zero-Shot Composed Image Retrieval أو ZS-CIR)، التي تسمح باسترجاع صورة مستهدفة من صورة مرجعية مع تعديل نصي دون الحاجة لثلاثيات بيانات تم إعدادها يدويًا.

تظهر أساليب ZS-CIR المعتمدة على الإسقاط مزايا معينة لأنها لا تعتمد على نماذج اللغات الكبيرة (Large Language Models أو LLMs) في مرحلة الاستنتاج، مما يجعلها خفيفة الوزن، إلا أنها غالبًا ما تعاني من ضعف الأداء مقارنة بالأساليب المستندة إلى LLMs عند تطبيق تعديلات دلالية معقدة.

يعود سبب هذا التفاوت إلى وجود نقطة اختناق في الانتقال الدلالي في أسلوب ZS-CIR القائم على الإسقاط، حيث يمكن أن تتسبب المطابقة على مستوى النقطة النهائية في أن تعمل النصوص المعدلة كأدلة خصائص مستهدفة بدلاً من ربطها كتحولات دلالية مشروطة بالمصدر.

ولكن مع تقديم تقنية DeCIR، يظهر الحل لهذه المشكلة من خلال فصل تعلم النقاط النهائية عن تعلم التحولات. يتم ذلك عن طريق إنشاء أزواج من التعديلات الأمامية والعكسية من أزواج الصور مع التعليقات، وتدريب فروع محولات نصية منخفضة الرتبة بشكل منفصل للتوافق مع النقاط النهائية والتحولات الدلالية. وبعد ذلك، يتم دمجها باستخدام تقنية الدمج الاتجاهي منخفض الرتبة (Low-Rank Directional Merge أو LRDM) في محول واحد قابل للنشر.

تظهر التجارب الشاملة على مجموعة بيانات CIRR وCIRCO وFashionIQ وGeneCIS أن تقنية DeCIR تمكنت من تحسين أداء أساليب ZS-CIR القائمة على الإسقاط بشكل ملحوظ دون زيادة تعقيد الاستنتاج. هذه الخطوات تعكس تقدمًا نوعيًا في مجال الذكاء الاصطناعي واسترجاع الصور، مما يفتح آفاقًا جديدة للبحوث المستقبلية ومجالات التطبيق المختلفة.