أصبح الذكاء الاصطناعي (AI) جزءًا لا يتجزأ من العديد من التطبيقات العملية، ولكن تبقى بعض التحديات قائمة في مواجهة أساليب فهم الجداول متعددة الوسائط (Multimodal Tables). تمثل هذه الجداول توزيع البيانات بطريقة مرئية، مثل الرسوم البيانية والخرائط والرموز، مما يزيد من تعقيد تحليلها. ومع ذلك، لا تزال نماذج اللغات الكبيرة (Large Language Models) تواجه صعوبات كبيرة في فهم هذه البيانات.
في هذا السياق، تم تقديم MMTABREAL - معيار جديد ومبتكر لفهم الجداول متعددة الوسائط. يتكون هذا المرجع من 500 جدول واقعي مرتبط بـ 4,021 زوج سؤال-جواب، مما يوفر منصة شاملة لتقييم نماذج الذكاء الاصطناعي. يغطّي MMTABREAL أربعة أنواع من الأسئلة، وخمسة فئات تفكير، وثمانية أنماط هيكلية.
أظهرت التقييمات التي أُجريت على أحدث نماذج الذكاء الاصطناعي وجود فجوات ملحوظة، خاصة في مجالات التوافق البصري (Visual Grounding)، والمحاذاة المكانية (Spatial Alignment)، والاستدلال المتعدد الخطوات (Multi-step Inference). حيث سجلت نماذج الذكاء الاصطناعي تراجعًا في الأداء يتراوح بين 20-40% مقارنةً بالمعايير السائدة.
تشير هذه النتائج إلى ضرورة تطوير هياكل يمكنها دمج الرؤية مع هيكل الجدول بشكل أفضل، بالإضافة إلى دعم العمليات الرقمية والمنطقية بشكل أكثر وضوحًا. يُطلق MMTABREAL كأداة تقييم فقط، مما يوفر بيئة اختبار صارمة وقابلة للتكرار تعكس التعقيد اللغوي والبنائي والإستدلالي للجداول متعددة الوسائط في العالم الواقعي.
MMTABREAL: ركيزة جديدة لفهم الجداول متعددة الوسائط بتقنيات الذكاء الاصطناعي
في خطوة متقدمة نحو تحسين فهم الجداول المختلطة، تم إطلاق MMTABREAL، والذي يضم 500 جدول واقعي و4,021 سؤالاً. هذا المرجع يسمح بتقييم شامل لقدرات نماذج الذكاء الاصطناعي على مواجهة التحديات المعقدة المرتبطة بالبيانات الجدولية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
