في عصر الذكاء الاصطناعي الحديث، تستمر نماذج اللغة متعددة الوسائط (MLLMs) في تحقيق إنجازات ملحوظة، لكن الكثير من الأبحاث السابقة كانت تركز فقط على فهم الصور الثابتة. واليوم، تم طرح معيار جديد يحمل اسم SONIC-O1، الذي يعد خطوة كبيرة في تقييم هذه النماذج وقدرتها على معالجة البيانات الصوتية والفيديو.

SONIC-O1 هو معيار شامل تم التحقق منه بالكامل من قبل البشر، ويتضمن 60 ساعة من المحتوى (231 مقطع) تغطي 13 مجالاً محادثة حقيقية. يضم المعيار أيضاً 4,958 ملاحظة وبيانات ديموغرافية متعلقة بالمستخدمين، مما يجعله أداة قوية لتقييم الأداء في ظروف واقعية.

يوفر هذا المعيار ثلاثة أبعاد رئيسية للتقييم: تلخيص مفتوح، والإجابة على أسئلة متعددة الخيارات (MCQ)، وتحديد مواقع زمنية مع تقديم مبررات (reasoning). وقد أظهرت النتائج أن دقة الإجابة على أسئلة MCQ تختلف بشكل طفيف بين عائلات النماذج. ومع ذلك، أظهر أفضل نموذج مغلق المصدر تفوقًا على أفضل نموذج مفتوح المصدر بفارق 22.6% في تحديد المواقع الزمنية، مما يشير إلى تعامل مختلف تركيبي مع البيانات بين هذه العائلات.

وبالإضافة إلى ذلك، تم تحديد فجوات في الدقة تصل إلى 21.4% في تحديد المواقع الزمنية بين المجموعات الديموغرافية المختلفة، مما يعكس الفجوات المستمرة في سلوك النماذج.

SONIC-O1 لا يقتصر على كونه معياراً بل يمثل أيضاً مجموعة تقييم مفتوحة لفهم متعدد الوسائط مستند على الزمن وبصورة ديموغرافية قوية. يتم الآن تسهيل الوصول إلى SONIC-O1 للبحث، حيث يمكننا استكشاف الصفحات المشروع (https://vectorinstitute.github.io/sonic-o1/)، مجموعة البيانات (https://huggingface.co/datasets/vector-institute/sonic-o1)، ومستودع GitHub (https://github.com/vectorinstitute/sonic-o1) بالإضافة إلى لوحة القياس (https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard).

ما رأيكم في هذا التطور في الذكاء الاصطناعي؟ شاركونا آراءكم وتجاربكم في التعليقات.