في عالم اليوم، تعتبر مقاطع الفيديو ذات الحركة عنصراً أساسياً في تقديم المحتوى التفاعلي والمشوق. لذلك، قدّم الباحثون نظام "موشن أتلانتيك" (MotionAtlas)، الذي يتيح توصيل وصف تفصيلي للمشاهد الحركية.
يتميز نظام موشن أتلانتيك بعدة عناصر رئيسية تشمل (1) مجموعة بيانات مرجعية مكتوبة بواسطة الإنسان، (2) خط أنابيب ذات جودة عالية وقابل للتوسع لإنشاء عينات التدريب، و(3) عائلة من نماذج تعلم الآلة المخصصة لرصد الحركة في مقاطع الفيديو (Video-MLLMs).
بدلاً من الاعتماد على مجموعات البيانات التقليدية التي تركز على الحركة العالمية، يركز موشن أتلانتيك على توصيل الحركة في مناطق معينة بدقة. من خلال استخدام نموذج مؤهل بالكامل، يمكن للنظام توليد أوصاف دقيقة للحركة داخل المناطق المستهدفة، مما يقلل من الفوضى البصرية وتعقيد الحركة، مما يسهل عملية التقييم الكمي.
يستند نظام موشن أتلانتيك إلى إنشاء "موشن أتلانتيك بنش" (MotionAtlas-Bench)، وهو مجموعة شاملة تتضمن 2073 سؤال متعدد الخيارات، موضوعة بعناية لتتناسب مع مجموعة مختارة من مقاطع الفيديو الراقية ذات الحركة. يهدف هذا إلى تقييم الفهم الدقيق لحركة الأجسام داخل السياقات المعنية.
علاوة على ذلك، تم تصميم خط أنابيب بيانات صارم وقابل للتوسع يستخدم أسلوب التحسين الذاتي لتقليل الأخطاء الدقيقة، مما يؤدي إلى إنتاج 159,000 بيانات تعليمية غنية بالجودة في وصف الحركة. كما تم تطوير استراتيجية تكوين بيانات تدريب مخصصة، تحقّق مكاسب أداء ملحوظة عبر مجموعة متنوعة من نماذج Video-MLLMs، بما في ذلك نماذج مثل Molmo2 و Qwen3-VL.
تشير النتائج إلى أن نموذج موشن أتلانتيك-4B يتفوق بمعدل 5.2 نقطة مئوية على نموذج Qwen3-VL-4B في الاختبارات الأساسية للحركة. لقد تم إطلاق المجموعة المرجعية، مجموعة البيانات، والكود مما يجعلها متاحة للأبحاث والتطوير.
هل ترى أن هذه التكنولوجيا ستغير طريقة تعاملنا مع مقاطع الفيديو الحركية؟ شاركونا آراءكم في التعليقات!
موشن أتلانتيك: الحل الثوري لتوصيف مقاطع الفيديو المليئة بالحركة!
أطلق الباحثون نظام موشن أتلانتيك لتوصيف مقاطع الفيديو ذات الحركة بشكل مفصل، مع التركيز على الاستجابة للمنطقة بدلاً من الوطن. هذا الابتكار يعد تحولاً في مقاييس تقييم الحركة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
