في عالم الذكاء الاصطناعي والتعلم الآلي، شهدنا تقدمًا مذهلاً في نماذج اللغات المتعددة النماذج (Large Multi-modal Models - LMMs)، التي تمكّن من إجراء استنتاجات فعّالة بين الرؤية واللغة. ومع ذلك، لا يزال فهم الفيديو مُقيّدًا بسبب استراتيجيات اختيار الإطارات غير المثلى، بالرغم من التطورات السريعة في النماذج المتخصصة في الفيديو.
محاولات سابقة للتغلب على هذه العقبة اعتمدت على استخدام heuristics ثابتة أو وحدات استرجاع خارجية لتزويد معلومات على مستوى الإطار. إلا أن هذه الأساليب غالبًا ما تفشل في التقاط الإشارات البصرية المرتبطة بالاستفسارات الموجهة من المستخدم، حيث تخلط بين الديناميكية البصرية الخام والأهمية الدلالية الحقيقية.
لذا، نقدم لكم ReFoCUS (تحسين الإطار المدعوم بالتعلم التعزيزي لفهم السياق)، وهو الإطار الأول من نوعه الذي يدمج التعلم التعزيزي القائم على سياسة النمط في تحسين اختيار الإطار لموديلات الفيديو. يهدف ReFoCUS إلى تعلم سياسة اختيار الإطار، معتمدًا على إشارات المكافأة المستمدة من نماذج مرجعية لالتقاط سلوك التصنيف الأساسي الخاص بها عبر مجموعات الإطارات التي تدعم الردود المرجعية المؤقتة.
وللقيام باستكشاف فعال لمساحة الإطارات الكبيرة، نحن نعتمد على بنية اختيار شرطية تعتمد على الاستجابة الذاتية والاستعلام، مما يضمن تناسقًا سياقيًا مع تقليل التعقيد. يزيل تعلم السياسة لدينا الحاجة إلى الإشراف الصريح على مستوى الإطار، حيث تُكتشف التراكيب المثلى والمتناسقة دلاليًا بشكل ضمني.
وقد أظهر ReFoCUS تحسينًا مستمرًا في دقة الاستدلال عبر العديد من معايير الأساسية لأسئلة الفيديو، مما يبرز ميزة توافق اختيار الإطار مع المنفعة الداخلية للنموذج.
هذه الابتكارات تمهد الطريق لفهم أكثر ذكاءً ودقة للتفاعلات البصرية في جهات الاستخدام المختلفة، مما يعزز القدرة على الإجابة بدقة أكبر على الأسئلة المتعلقة بالفيديو. هل أنتم متحمسون لمستقبل الذكاء الاصطناعي في مجال فهم الفيديو؟ شاركونا في التعليقات!
ReFoCUS: ثورة جديدة في تحسين فهم الفيديو باستخدام الذكاء الاصطناعي!
في إطار تطور نماذج الذكاء الاصطناعي، يقدم ReFoCUS نهجًا مبتكرًا لتحسين اختيار الإطارات في فهم الفيديو. هذه التقنية تفتح آفاقًا جديدة لفهم سياقات الفيديو بشكل أكثر دقة وكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
