في عصر التجارة الرقمية، يتجه الكثيرون نحو محتوى الفيديو كوسيلة لجذب المستخدمين بشكل أكبر. لكن، هل تعرف ما هي التحديات التي يأتي بها هذا التحول؟ مشكلة "البرد الشديد" (Extreme Cold-Start) هي واحدة من أكبر العقبات التي تواجه هذا النوع من المحتوى، حيث تفتقر الفيديوهات القصيرة الجديدة إلى سجلات التفاعل الكثيفة الضرورية للتحليل التعاوني.

في ورقتنا الجديدة، نقدم لك نظام "توليد المرشحات للفيديو" (Video Candidate Generation - VCG)، وهو محرك استرجاع متعدد الوسائط مصمم لمواجهة هذه التحديات في بيئة التجارة الإلكترونية الواسعة. يعتمد VCG على نموذج رؤية-لغة ملائم للخدمات، يستند إلى تقنية CLIP، حيث يعمل على رسم خريطة للمستخدمين والفيديوهات في فضاء دلالي مشترك. هذا سيمكن النظام من استرجاع المحتوى بناءً على المحتوى المرئي، بدلاً من تاريخ التفاعل.

لقد قمنا بتفصيل بنية النظام وقمنا بإجراء تقييم شامل لمقارنة النماذج التوليدية (Generative) مع النماذج التمييزية (Discriminative) مثل CLIP. تظهر نتائجنا أن النماذج التوليدية تتميز في التنبؤ بالصفات، لكنها تعاني من انهيار الفضاء عند المهام الاسترجاعية. كما أظهرت اختبارات A/B عبر الإنترنت أن نظام VCG يقلل فعليًا من انحيازات التفاعل، مما يؤدي إلى زيادة بنسبة 50% في إكمال الفيديو العميق.

أبرزت إمكانيات النظام من خلال عرض تفاعلي يتضمن ثلاثة سيناريوهات لاسترجاع المحتوى: من المنتج إلى الفيديو، من الفيديو إلى المنتج، والبحث الدلالي بدون تجربة سابقة (Zero-Shot Semantic Search). إذا كنت تتطلع إلى فهم كيفية تغيير التجارة الإلكترونية من خلال الفيديو، فإن VCG هو الحل الذي تحتاجه!