في السنوات الأخيرة، شهدت عملية [فهم](/tag/فهم) [مقاطع الفيديو](/tag/مقاطع-[الفيديو](/tag/الفيديو)) تقدماً ملحوظاً بفضل [نشر](/tag/نشر) العديد من [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)) الكبيرة. لكن، على الرغم من هذا التطور، لا يزال التركيز قليلاً على [مقاطع الفيديو](/tag/مقاطع-[الفيديو](/tag/الفيديو)) القصيرة المُنتَجة من قِبل المستخدمين التي تنمو شعبيتها يوماً بعد يوم. لذلك، تم إطلاق [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) USV ([مقاطع الفيديو](/tag/مقاطع-[الفيديو](/tag/الفيديو)) القصيرة المُنتَجة من قِبل المستخدمين) التي تهدف إلى تعزيز [فهم](/tag/فهم) هذه النوعية من المحتوى.

تحتوي [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) USV على حوالي 224 ألف مقطع [فيديو](/tag/فيديو) تم جمعها من [منصات](/tag/منصات) المحتوى المُنتَج من قِبل المستخدمين، وذلك باستخدام [استعلامات](/tag/استعلامات) [تصنيف](/tag/تصنيف) دون الحاجة إلى [تحقق](/tag/تحقق) يدوي إضافي أو [تقليم](/tag/تقليم). على الرغم من أن خطوات [تحقيق](/tag/تحقيق) [فهم الفيديو](/tag/[فهم](/tag/فهم)-[الفيديو](/tag/الفيديو)) قد حققت تقدماً، إلا أن معظم [الأبحاث](/tag/الأبحاث) تستهدف [التعرف](/tag/التعرف) على المستويات الفردية، وهو ما لا يكفي لفهم [المعلومات](/tag/المعلومات) الدلالية العالية في الفيديوهات.

لذلك، تم [تصميم](/tag/تصميم) مهمتين رئيسيتين ضمن هذا المشروع: [التعرف](/tag/التعرف) على المواضيع واسترجاع [الفيديو](/tag/الفيديو) والنص. وقد تم اعتماد طريقتين أساسيتين موحدتين وفعالتين تتمثل في شبكة دمج [الوسائط المتعددة](/tag/الوسائط-المتعددة) (Multi-Modality Fusion Network - MMF-Net) والتعلم التبايني بين [الفيديو](/tag/الفيديو) والنص (Video-Text Contrastive Learning - VTCL)، وذلك للتعامل مع مهمة [التعرف](/tag/التعرف) على المواضيع واسترجاع [الفيديو](/tag/الفيديو) والنص على التوالي.

من خلال إجراء [تقييمات](/tag/تقييمات) شاملة، يفتح مشروع USV آفاقاً جديدة للبحوث المستقبلية في هذا المجال ويعزز من قدرات [الباحثين](/tag/الباحثين) والمهتمين بفهم تعقيدات المحتوى الفيديوي. لمزيد من التفاصيل، يمكنكم زيارة [صفحة المشروع](https://usvdataset.github.io).