في عالم الذكاء الاصطناعي، تمثل [توقعات](/tag/توقعات) [تفاعلات](/tag/تفاعلات) الإنسان مع الأشياء خطوة جديدة ومثيرة، حيث أعلنت [VISTA](/tag/vista) – وهي [أداة](/tag/أداة) جديدة تم تطويرها خصيصاً لتحدي صحتها في سياق المقاطع الفيديوهات الشخصية – عن تحقيقها المركز الأول في [تحدي](/tag/تحدي) Ego4D أثناء فعالية [EgoVis 2026](/tag/egovis-2026).
تعمل [VISTA](/tag/vista) كنموذج دمج فريد يجمع بين [تصميم](/tag/تصميم) StillFast والنماذج المعتمدة على سياق زمني قصير، مما يمكّنها من [توقع التفاعلات](/tag/توقع-[التفاعلات](/tag/التفاعلات)) البشرية مع العناصر بشكل فعال. عند تقديمها لزمن معين في مقطع [فيديو](/tag/فيديو) يتمركز حول شخصية معينة، تتمكن [VISTA](/tag/vista) من [التنبؤ](/tag/التنبؤ) بالتفاعل التالي، بالإضافة إلى [تتبع](/tag/تتبع) معالم كل شيء مثال علبة، الفئة لشيء، الفعل، ووقت الاتصال المحتمل، مما يُظهر مستوى عالٍ من [الدقة](/tag/الدقة) والثقة.
تعتمد [VISTA](/tag/vista) على [نموذج](/tag/نموذج) Faster R-[CNN](/tag/cnn) [ResNet](/tag/resnet)-50 FPN المدرب مسبقاً على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) COCO لتوليد اقتراحات موضوعية من الإطار عالي [الدقة](/tag/الدقة) الأخير. بينما يقوم أحد فروعها الزمنية الثابتة، V-JEPA 2.1، باستخلاص سياق [الفيديو](/tag/الفيديو) ذي الطابع الشخصي. يتم حقن [التمثيل](/tag/التمثيل) الزمني في مسار الكشف من خلال [تعديل](/tag/تعديل) الخصائص ودمج [السياق](/tag/السياق) عند مستوى المنطقة المثيرة للاهتمام.
ومع تداخل هذه الميزات المقترحة، يتم تمريرها إلى [توقعات](/tag/توقعات) STA متعددة الرؤوس لتحسين الصناديق، [تصنيف](/tag/تصنيف) الأسماء، [تصنيف](/tag/تصنيف) الأفعال، تقدير زمن الاتصال، وتقدير [ثقة](/tag/ثقة) [التفاعل](/tag/التفاعل). ولتحقيق ما هو أفضل، تم دمج [التوقعات](/tag/التوقعات) التكميلية لتحسين القوة والجدارة.
الأرقام التي جمعتها [VISTA](/tag/vista) على [خادم](/tag/خادم) التحدي الرسمي أظهرت أنها قد حققت أول مكان في التحدي، مما يسلط الضوء على إمكانياتها القوية. لمزيد من التفاصيل، سيتم إطلاق شفرتها المصدرية قريباً على [GitHub](/tag/github): https://github.com/CorrineQiu/[VISTA](/tag/vista).
ما رأيكم في هذا التطور المثير؟ هل تعتقدون أن [VISTA](/tag/vista) ستغير قواعد [اللعبة](/tag/اللعبة) في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات).
توقعات تفاعلات الإنسان مع الأشياء: VISTA يتصدر تحدي Ego4D في EgoVis 2026!
تقنية VISTA تقدم إنجازاً عظيماً في توقع تفاعلات الإنسان مع الأشياء، حيث حققت المركز الأول في تحدي Ego4D خلال فعاليات EgoVis 2026. هذه التكنولوجيا تدمج بين الدقة العالية والسياق الزماني بشكل متقدم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
