في السنوات الأخيرة، بدأت نماذج متعددة الوسائط الموحدة (Unified Multimodal Models - UMMs) في الظهور كأداة قوية تجمع بين عملية الفهم والتوليد ضمن إطار عمل واحد. تعتبر القدرة على التعامل مع الحوارات الديناميكية متعددة الأدوار والتفاعلات بين الصور والنصوص من العناصر الأساسية التي تحتاجها هذه النماذج في التطبيقات الواقعية.
لكن، يواجه الباحثون مشكلة كبيرة، حيث أن المعايير الحالية لم تستطع تقييم هذه التفاعلات بشكل كامل. فمعظم المعايير تقتصر على حوارات ذات دور واحد أو إعدادات ثابتة، مما يؤدي إلى تجاهل ظاهرة التحيز في التعرض (Exposure Bias) التي تلعب دورًا مهمًا في التفاعلات متعددة الأدوار.
لذا، عملنا على تقديم معيار IMUG-Bench، الذي يتميز بكونه معيارًا شاملاً لتقييم حوارات النصوص والصور عبر أدوار متعددة، حيث يقوم بتقييم قدرات الفهم والتوليد بشكل مشترك. يحتوي IMUG-Bench على ثلاث فئات: الفئة الثابتة (Static Spatial)، الفئة الزمنية السببية (Temporal Causal)، والفئة الهجينة (Hybrid)، ويشمل أكثر من 3,113 نموذجًا و12,034 دور تفاعلي.
علاوة على ذلك، يتضمن المعيار أسئلة فهم ديناميكية، مما يدعم تقييمًا يعكس بشكل أفضل السيناريوهات التفاعلية المعقدة في العالم الحقيقي. من خلال تجارب واسعة النطاق على IMUG-Bench، تم تقييم أبرز النماذج المفتوحة والمغلقة، وكُشف النقاب عن حدود قدراتهم وأوضاع الفشل. كما تم التعرف على وجود تحيز بارز في جانب التوليد خلال التفاعلات متعددة الأدوار.
بالإضافة إلى ذلك، تم استكشاف عدة استراتيجيات لتحجيم الوقت الاختباري، مثل فكرة تدفق التفكير (Chain-of-Thought) والتحقق الذاتي (Self-Verification) وأفضل عينة من ن sampling (Best-of-N Sampling)، مما أسفر عن تحسين دقة التوليد وتقليل التحيز في مهام التوليد.
تشكل هذه النتائج نقطة انطلاق لتعزيز قوة التحمل وقدرة التفاعل المتعدد الأدوار في نماذج متعددة الوسائط المستقبلية. ما هي توقعاتكم بشأن تطور هذه النماذج؟ شاركونا في التعليقات!
IMUG-Bench: معيار جديد لتقييم نماذج متعددة الوسائط في حوار تفاعلي مُعقد
تسعى IMUG-Bench لتقييم نماذج متعددة الوسائط من خلال تقديم معيار شامل يتناول حوارات النصوص والصور البصرية. هذا المعيار يعد خطوة هامة نحو فهم وتوليد حوارات ديناميكية في التطبيقات الواقعية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
