في السنوات الأخيرة، حققت نماذج توليد الفيديو من النصوص (Text-to-Video generation models) تقدمًا ملحوظًا، حيث أصبحت قادرة على إنتاج فيديوهات ذات جودة بصرية عالية وتوافق زمني جيد. ومع ذلك، تركز المعايير الحالية بشكل أساسي على الجودة الإدراكية والتوافق بين النص والفيديو أو حتى المنطق الفيزيائي، تاركة جانبًا حيويًا في فهم الأفعال غير مستكشف بشكل كافٍ، وهو ما يتعلق بتغييرات حالة الأجسام (Object State Change) كما المحدد في النص.
تغييرات حالة الأجسام تشير إلى التحولات التي تحدث لحالة الجسم نتيجة فعل معين، مثل تقشير البطاطا أو تقطيع الليمون. في هذا السياق، نقدم لكم OSCBench، وهو معيار تم تطويره خصيصًا لتقييم أداء نماذج توليد الفيديو في فهم تغييرات حالة الأجسام.
تم بناء OSCBench باستخدام بيانات الطهي الإرشادية وتنظيم تفاعلات الأفعال والأجسام بشكل منهجي في سيناريوهات منتظمة، ونووية، وتركيبية لفحص الأداء في السياقات القائمة وعمليات التعميم.
قمنا بتقييم ستة نماذج تمثيلية مفتوحة المصدر وتجارية باستخدام دراسة أجراها مستخدمون بشريّون وتقييم تلقائي قائم على نماذج اللغة متعددة الوسائط (Multimodal Large Language Models). وأظهرت نتائجنا أنه بالرغم من الأداء القوي في توافق المعنى والمشهد، إلا أن النماذج الحالية لتوليد الفيديو من النصوص تجد صعوبة مستمرة في تحقيق تغييرات حالة دقيقة ومتسقة زمنياً، خاصة في الإعدادات الجديدة والتركيبية.
توضيح هذه النتائج يعتبر نقطة جوهرية تكشف عن كون تغييرات حالة الأجسام تُعتبر عائقاً رئيسياً في توليد الفيديو من النصوص، مما يضفي أهمية كبيرة على OSCBench كمؤشر تشخيصي لتطوير نماذج توليد الفيديو المستندة إلى الوعي بالحالة.
ثورة في توليد الفيديو: اكتشاف كفاية نموذج OSCBench في فهم تغييرات حالة الأجسام
تقدم نماذج توليد الفيديو من النصوص (Text-to-Video) قفزة نوعية في جودة الفيديوهات، ولكن تبقى بعض الجوانب كفهم تغييرات الحالة للأجسام غير مستكشفة. يقدم المقال OSCBench كمعيار جديد يقيم أداء النماذج في هذا الصدد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
