في عالم الذكاء الاصطناعي والتعلم الآلي، تمثل نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) نقطة تحول حقيقية، خاصةً في مجال استخراج بيانات المخططات. يعتمد هذا الأسلوب الجديد على إعادة هندسة جداول البيانات من صور المخططات، وهو أمر جوهري لتحقيق إعادة الإنتاجية، والتحليل، واسترجاع المعلومات، وإعادة التصميم.
على الرغم من أن الأدوات التفاعلية الحالية تمثل وسائل موثوقة ولكنها قد تكون مرهقة، فإن الأنظمة المختلطة المبادرات، على الرغم من فعاليتها، فإنها تفتقر إلى العمومية. وقد أظهرت الأبحاث الأخيرة أن نماذج MLLMs تقدم واجهة موحدة لتفسير المخططات، إلا أن قدرتها على استخراج جداول البيانات بدقة، خاصةً دون وجود تسميات مرئية، لم تتوضح بعد.
لتقييم هذه القدرة، قام الباحثون بإنشاء معيار يتضمن مجموعة متنوعة من المخططات الحقيقية دون تسميات بيانات. وكشفت النتائج أن النماذج الحالية قادرة على إعادة بناء هياكل الجداول بشكل موثوق، إلا أنها تواجه صعوبات في استرجاع القيم الدقيقة.
لذلك، تم اقتراح إعادة النظر في استخراج بيانات المخططات من منظور مركزي إنساني، حيث يجب أن يتبع هذا النظام عملية تعلم تدريجية تشبه كيفية قراءة البشر للمخططات. وطرحت الدراسة إطار عمل تدريبي يحسن الدقة العددية بشكل ملحوظ، محققة أداءً رائدًا باستخدام نموذج بـ 7 مليارات معلمة. وليؤكد ذلك، أثبتت دراسة مستخدمين أن النموذج الجديد يدعم بسلاسة سير العمل المختلط للاستخراج الموحد لبيانات المخططات بشكل موثوق.
ثورة نماذج اللغة متعددة الوسائط: إطار عمل جديد لاستخراج بيانات المخططات بدقة مذهلة!
تطوير إطار عمل مبتكر لاستخراج بيانات المخططات باستخدام نماذج اللغة متعددة الوسائط (MLLMs) يدعم التحليل وإعادة التصميم بشكل أكثر كفاءة. هذا البحث يكشف عن فعالية النموذج الجديد في تحسين دقة استرجاع البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
