أصبحت نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) نقطة تحول في عالم الذكاء الاصطناعي، ولكن هل يمكنها حقًا "قراءة" ما هو مفقود من النصوص؟ اليوم، نقدم لكم MMTR-Bench، معيار جديد مبتكر يهدف إلى تقييم القدرة الجوهرية لهذه النماذج في إعادة بناء النصوص المغطاة أو المفقودة باستخدام المعلومات المرئية.
على عكس المهام التقليدية لحل الأسئلة، يكسر MMTR-Bench القواعد من خلال إزالة المحفزات الواضحة ويتطلب من النماذج إعادة بناء النصوص المفقودة من مدخلات تتنوع بين صفحة واحدة إلى عدة صفحات عبر مجالات العالم الحقيقي مثل الوثائق وصفحات الويب. يتيح هذا التصميم تقييم قدرة النموذج على فهم التخطيط، وربط الصور بالمعلومات، ودمج المعرفة بشكل مباشر.
يتكون معيار MMTR-Bench من 2,771 نموذج اختبار تغطي لغات متعددة وأحجام مستهدفة متفاوتة. لإدارة هذه التنوعات، تم اقتراح بروتوكول تقييم يعتمد على مستويات، مما يضمن دقة القياس.
أظهرت التجارب على نماذج MLLMs الممثلة أن هذا المعيار يمثّل تحديًا كبيرًا، خاصة بالنسبة لإعادة بناء الجمل والفقرات. إذا كنت مهتمًا بمزيد من التفاصيل، يمكنك زيارة الصفحة الرئيسية للمعيار عبر الرابط المرفق.
مع تطور التقنيات، يبقى السؤال: إلى أي مدى يمكن أن تتطور النماذج في فهم وعرض المعلومات الغير مرئية؟
هل تستطيع نماذج اللغة متعددة الوسائط قراءة ما هو مفقود؟ اكتشفوا الإجابة مع MMTR-Bench!
تم إطلاق MMTR-Bench، معيار مبتكر يقيس قدرة نماذج اللغة متعددة الوسائط على إعادة بناء النصوص المفقودة من السياقات المرئية. هذا المعيار يعد خطوة هامة لتقييم الفهم البصري والتكامل المعرفي لتلك النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
