في عالم سريع التطور لذكاء الاصطناعي، تمثل [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) جوهر [الابتكارات](/tag/الابتكارات) الجديدة، حيث تم استخدامها كعمود فقري لفهم المدخلات المتعددة الأبعاد وتخطيط عمليات الاسترجاع. ومع ذلك، كانت [التقييمات](/tag/التقييمات) الراهنة نادرة فيما يتعلق بالتطبيقات ذات الفيديو القصير، حيث تُمثل المشاهد الموقوفة تحديًا بصريًا وتقنيًا.

**مقدمة SVFSearch**
اليوم، نقدم لكم SVFSearch، أول معيار مفتوح لتقييم [بحث](/tag/بحث) إطار الفيديو القصير في مجال [الألعاب](/tag/الألعاب) بشكل خاص. يتضمن [SVFSearch](/tag/svfsearch) 5,000 مثال اختبار مع خيارات متعددة، بالإضافة إلى 4,198 مثال [تدريب](/tag/تدريب) داعم، كل منها يركز على مشهد لعبة موقوف من مقطع [فيديو](/tag/فيديو) قصير حقيقي.

**بيئة التقييم**
لتوفير [تقييم](/tag/تقييم) عادل وقابل للتكرار، يقدم [SVFSearch](/tag/svfsearch) [بيئة](/tag/بيئة) استرجاع مجمدة دون الاتصال بالويب، مع مجموعة [نصوص](/tag/نصوص) خاصة بمجال [الألعاب](/tag/الألعاب) ومعرض [صور](/tag/صور) مرتبط بالمواضيع. كذلك، يوفر [واجهات](/tag/واجهات) استرجاع [نصوص وصور](/tag/[نصوص](/tag/نصوص)-وصور) متعددة الأبعاد.

**نتائج [البحث](/tag/البحث) والتحليل**
عند [تقييم](/tag/تقييم) [نماذج](/tag/نماذج) مختلفة، من [QA](/tag/qa) المباشرة إلى [أدوات](/tag/أدوات) التخطيط، تظهر النتائج فجوة كبيرة بين الاستعلامات النموذجية وسلوكيات [البحث](/tag/البحث) [العملية](/tag/العملية). إذ أن أفضل [نموذج مفتوح](/tag/[نموذج](/tag/نموذج)-مفتوح) بلغ معدل [دقة](/tag/دقة) 66.4%، بينما النموذج العملي الأفضل حقق 79.1%، ومعرفة الأوركال وصلت إلى 95.4%.
بالإضافة لذلك، كشفت التحليلات عن معوقات في [التوجيه](/tag/التوجيه) البصري وجودة الاسترجاع وسلوكيات استخدام [الأدوات](/tag/الأدوات) مثل [البحث](/tag/البحث) الزائد والاختصارات القائمة على الأجوبة.