في عالم الذكاء الاصطناعي، يعتبر فهم الفيديو من التحديات الكبيرة، حيث تعاني النماذج الحالية من مشكلة غياب الاعتماد على موثوقية كل إطار. في نهج جديد، تم تقديم نظام Robust-TO الذي يسعى إلى معالجة ما يُعرف بمشكلة الثقة العمياء (Blind Trust Problem)، حيث تفترض الأنظمة الشائعة أن جميع الإطارات متساوية في الدقة.
تتأثر نماذج فهم الفيديو بشدة بالعوامل الخارجية مثل ضباب الحركة أو الوهج، مما يؤدي إلى انخفاض في الدقة يصل إلى 30% في القياسات العملية. لكن مع Robust-TO، يتم إدماج موثوقية كل إطار بشكل صريح في عملية التحليل. هذا النظام يوفر واجهة موحدة لكل أدوات التصور البصري، حيث تحصل كل أداة على استفسار فرعي مستمد من السؤال الأصلي ومجموعة من الإطارات الموثوقة.
ترافق عملية التعليل باستخدام scores موثوقة معدلة تدعم وزن الأدلة في عملية تصنيف ثلاثية المستويات (عالية/متوسطة/منخفضة) وتحدد مكافأة GRPO التي تعزز الدقة وكفاءة الأداء. وبفضل هذه التحسينات، حقق Robust-TO دقة متوسطة بلغت 56.4% على مدخلات نظيفة، متجاوزاً أقوى نموذج مفتوح المصدر بنسبة 10.6%.
لا يتوقف الأمر عند هذا الحد، بل حتى تحت أنواع الفساد الواقعية، حافظ النظام على دقة متوسطة بلغت 54.3%، مما يدل على فعاليته الفائقة مقارنة بأساليب أخرى.
إذا كنت مهتماً بعالم الذكاء الاصطناعي وفهم الفيديو، فإن Robust-TO يمثل خطوة كبيرة نحو تحقيق دقة أعلى وموثوقية أفضل. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
نظام قوي لفهم الفيديو يعتمد على الثقة: ثورة في تحليل الفيديو!
تم تطوير نظام Robust-TO لفهم الفيديو يعتمد على تصنيف موثوقية كل إطار، مما يعزز الدقة في التنبؤات. هذا الابتكار يعد بتقليل الفجوة في الدقة لدى نماذج فهم الفيديو التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
