في عالم يتطور يومًا بعد يوم، أصبح فهم محتوى الفيديو أمرًا حاسمًا لا سيما مع زيادة كميات البيانات المتاحة. ولتلبية هذه الحاجة، تم تقديم تقنيّة جديدة تدعى الفيديو-SALMONN-R$^3$، المبتكرة خصيصًا لتعزيز أداء النماذج اللغوية الكبيرة (Large Language Models) في فهم الفيديو.
مع القيود المتعلقة بالذاكرة وموارد الحوسبة، يأتي بعض التحدي في استخدام معدلات الإطارات المنخفضة والدقة المكانية، مما قد يؤدي إلى فقدان معلومات حاسمة أثناء عملية الإجابة عن الأسئلة (QA). الحل العملي يكمن في نموذج ذي مرحلتين: في المرحلة الأولى، يتم فهم الفيديو بشكل عام لتحديد المقاطع ذات الصلة، ثم يتم إعادة مشاهدة هذه المقاطع بدقة أعلى.
تعتبر SALMONN-R$^3$ أول نموذج من نوعه يمكّن المستخدمين من إعادة مشاهدة المقاطع من خلال التعلم المعزز دون الاعتماد على الأنظمة السابقة من البيانات المشرحة. هذا الابتكار يحقق هدفين رئيسيين؛ فهو يلغي الحاجة إلى تهيئة البيانات المكلفة ويوفر تحسينًا تدريجيًا للإجابات.
علاوة على ذلك، تم تقديم استراتيجية إعادة الإجابة، حيث يقوم النموذج بإنتاج إجابة مباشرة في المشاهدة الأولى، ثم يقوم بتحسينها بعد إعادة المشاهدة. ولتعزيز الالتزام بالسؤال أثناء إعادة المشاهدة، تم اقتراح آلية إعادة طرح السؤال التي تعيد إدخال الاستفسار عند استعراض المقاطع المحددة.
أظهرت النتائج التجريبية أن SALMONN-R$^3$ يتفوق بشكل متواصل على النموذج الأساسي وقاعدة بيانات QA-SFT، بينما يتجاوز الأساليب السابقة المعتمدة على إعادة المشاهدة بتكاليف محاسبية أقل بكثير. مع الإطلاق العام للكود والنماذج والبيانات عند قبول البحث، يظهر الفيديو-SALMONN-R$^3$ كحل واعد يعيد تعريف علاقتنا بالمحتوى المرئي.
ثورة الفيديو مع SALMONN-R$^3$: كيف تعزز تقنيات الذكاء الاصطناعي فهمنا للمحتوى المرئي؟
تقدم تقنية الفيديو-SALMONN-R$^3$ نهجًا مبتكرًا لفهم مقاطع الفيديو من خلال التعلم المعزز، مما يعزز قدرة النماذج اللغوية الكبيرة على استرجاع المعلومات بدقة. تتيح هذه التقنية إعادة مشاهدة المقاطع ذات الأهمية بشكل فعال دون تكاليف باهظة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
