في عالم المعلومات متعددة الوسائط، يبرز استرجاع لحظات الفيديو (Video Moment Retrieval - VMR) كأحد المهام البارزة التي تتطلب تحديد اللحظة المستهدفة من فيديو غير محرر استنادًا إلى استعلام لغوي محدد. على الرغم من زخم هذه المهمة، إلا أن العديد من الطرق السابقة تعتمد بشكل كبير على التوصيف اليدوي لللحظات، والذي يُعتبر مكلفًا جدًا على مستوى التنفيذ. إضافة إلى ذلك، يواجه الباحثون مشكلة الفجوة بين المجالات، حيث يؤدي تطبيق النماذج المدربة مسبقًا على مجالات غير مألوفة إلى انخفاض كبير في الأداء.

تناول بحثنا تحديًا جديدًا يتمثل في استرجاع لحظات الفيديو عبر المجالات، حيث تتوفر بيانات موصوفة بالكامل في أحد المجالات (نسميه "المجال المصدر")، بينما يحتوي المجال الآخر ("المجال المستهدف") على بيانات غير موصوفة. نعرض هنا أول دراسة من نوعها حول استرجاع لحظات الفيديو عبر المجالات.

لمعالجة هذه المهمة الجديدة، نقدم شبكة التوافق المتعدد النماذج (Multi-Modal Cross-Domain Alignment - MMCDA)، التي تهدف إلى نقل المعرفة المتعلقة بالتوصيف من المجال المصدر إلى المجال المستهدف. ومع ذلك، نظرًا لاختلاف المجالات بين المصدر والمستهدف والفجوة الدلالية بين الفيديوهات والاستعلامات، يؤدي تطبيق النماذج المدربة مباشرة على المجال المستهدف عادةً إلى انخفاض في الأداء.

لمعالجة هذه المشكلة، قمنا بتطوير ثلاث وحدات جديدة:

1. **وحدة توافق المجال:** تهدف إلى توافق توزيع الميزات بين المجالات المختلفة لكل نمط.
2. **وحدة توافق عبر الأنماط:** تعمل على رسم ميزات الفيديو والاستعلام في فضاء تمثيل مشترك وتوافق توزيع الميزات بين الأنماط المختلفة في المجال المستهدف.
3. **وحدة توافق محددة:** تسعى للحصول على تشابه دقيق بين إطار محدد والاستعلام المعطى لتحقيق التحديد الأمثل.

من خلال تدريب هذه الوحدات الثلاثة بشكل مشترك، يمكن لشبكة MMCDA تعلم تمثيلات عبر الأنماط متوافقة ودلالية تحافظ على عدم الاعتماد على المجالات.