لقد واجهت نماذج فهم الفيديو الطويلة (Long-Video Models أو VLMs) تحديات كبيرة بسبب الحاجة إلى عملية تمرير واحدة ضخمة عبر آلاف الإطارات، مما يتسبب في تكاليف انتباه هائلة. لحل هذه المشكلة، يتم عادةً اختيار مجموعة صغيرة من الإطارات الأكثر أهمية قبل إجراء التمرير، وهذا يعتمد على التشابه في الفضاء المساعد للنماذج.
ومع ذلك، تتوقف فعالية هذه الإشارات بسبب التدريب التبادلي، الذي غالباً ما يفشل في استيعاب الاستفسارات ذات التحليل العميق مثل النفي، والعد عبر الإطارات، والتلخيص الشامل. هنا يأتي دور أسلوب GridProbe، الذي يقدم نموذج استدلال مبتكر يسمح بتقليل تكاليف الانتباه بشكل ملحوظ، مع المحافظة على دقة النتائج.
تقوم GridProbe بترتيب الإطارات في شبكة $K{ imes}K$، وتستخدم محاور خفيفة الوزن للصفوف والأعمدة لاستنتاج الأهمية، مما يمنح خريطة أهمية قابلة للتفسير. تتسم هذه الطريقة بقدرتها على التعلم من الأسئلة وتعديل عدد الإطارات التي يتم اختيارها (M_eff) وفقًا لصعوبة السؤال، دون الحاجة لرؤية الإجابة.
أظهرت التجارب أن GridProbe تحقق نتائج قريبة من الأداء الأساسي مع تقليل تكاليف المعالجة بشكل يصل إلى $3.36 imes$، مما يجعلها أداة قوية للمستقبل. علاوة على ذلك، إن إمكانية فصل نماذج الاختيار والاستجابة تجعل من التنسيق بين نماذج خفيفة الوزن ونماذج قوية بديلًا جذابًا وأكثر فعالية في الأداء.
ختامًا، يفتح نموذج GridProbe آفاقًا جديدة في مجال تشخيص السلوكيات، والتوجه نحو تحسين اختيار الإطارات، مما يجعلنا نتطلع إلى التطبيقات المستقبلية لهذه التكنولوجيا.
GridProbe: ثورة جديدة في اختصار زمن المعالجة لفهم الفيديوهات الطويلة بـ VLMs
تقدم تقنية GridProbe حلاً مبتكرًا لتقليل زمن المعالجة في نماذج فهم الفيديو الطويل، مما يسهم في تعزيز الكفاءة مع الاحتفاظ بالدقة. من خلال طريقة استدلال فعالة ومتقدمة، يمكن اختيار الإطارات الأكثر أهمية بذكاء حسب الأسئلة المطروحة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
