في عالم الذكاء الاصطناعي والتعلم الآلي، يعتبر استرجاع اللحظات الزمنية من مقاطع الفيديو (Video Moment Retrieval) من المهام المعقدة التي تتطلب دقة عالية في تحديد الحدود الزمنية المتوافقة مع استفسارات اللغة الطبيعية. ومع ذلك، فإن العديد من النماذج تعاني من عدم توافق بين الخسائر المستمرة والمقاييس غير القابلة للتفاضل، مما يؤدي إلى ركود في عملية تحسين الأداء في مراحل التدريب المتأخرة.
رغم أن التعلم المعزز (Reinforcement Learning) بعد التدريب يعزز النتائج عند استخدامه مع نماذج كبيرة، إلا أن تطبيقه مباشرة على الشبكات الخفيفة قد يُعطل تمثيلات الميزات الهشة التي تم إنشاؤها خلال مرحلة التدريب المراقب.
لحل هذه المشكلة، تم تقديم تقنية جديدة تُعرف باسم التعلم المعزز المعزول بالتدرج (Gradient-Isolated Reinforcement Learning) ضمن إطار DETR، وهي المرة الأولى التي يتم فيها دمج التعلم المعزز بعد التدريب في نموذج خفيف لاختيار الحدود الزمنية.
تبدأ العملية بإنشاء توافق مبكر بين ميزات الفيديو والنص من خلال التفاعل متعدد النماذج (Cross-Modal Interaction) قبل دخولها إلى مشفر الـ Transformer. بعدها، يدخل آلية البوابة الموجهة بالنص (Text-Guided Gating) التي تضخ أولويات دلالية ديناميكية في الاستفسارات قبل أن يقوم مشفر الـ Transformer بإنتاج اقتراحات مرشحة، مما يوفر مدخلات ذات نسبة إشارة إلى ضوضاء عالية للتنبؤ الزمني.
بعد الوصول إلى تجميع عملية التدريب المراقبة، يتم تجميد الشبكة الأساسية لحماية تجسيد الميزات، بينما يقوم رأس الكشف بتحسين المقياس التقييمي غير القابل للتفاضل tIoU لتعزيز دقة التحديد من خلال استراتيجية التعلم المعزز التقدمي ثلاثية المراحل (Three-stage Progressive Reinforcement Learning).
تُظهر التجارب التي أُجريت على مجموعات بيانات مثل Charades-STA و QVHighlights و TACoS أن método GIRL-DETR يعالج بفعالية تدهور خسائر الدليل ويحقق تحسينات كبيرة في الدقة مع تحديثات معلمات طفيفة، مما يوفر مساراً راسخاً لتطبيقات التعلم المعزز في موديلات استرجاع اللحظات الزمنية الخفيفة.
GIRL-DETR: ثورة في استرجاع اللحظات الزمنية من مقاطع الفيديو باستخدام التعلم المعزز
تقديم منهجية جديدة تُعرف بـ GIRL-DETR لتحسين استرجاع اللحظات الزمنية في مقاطع الفيديو باستخدام التعلم المعزز، مما يعالج تحديات التوافق بين الخسائر المستمرة والمقاييس غير القابلة للتفاضل. النتائج التجريبية تؤكد على تحسين الدقة بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
