في الآونة الأخيرة، أصبحت أنظمة الذكاء الاصطناعي متعددة الوسائط (Multimodal AI Systems) تجذب الأنظار نظرًا لأدائها المتميز في العديد من مهام التفكير البصري. ولكن، يبقى هناك جانب حيوي يُعتبر غير مُستكشَف بشكلٍ كافٍ، وهو القدرة على معالجة الصور النصية الغنية. ولتلبية هذه الحاجة، تم تطوير معيار جديد يُسمى OCR-Reasoning، والذي يهدف إلى تقديم تقييمٍ منهجي لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في مهام التفكير في الصور النصية.
يتضمن معيار OCR-Reasoning مجموعة من 1,069 مثالاً معلقاً من قِبل البشر، تغطي ستة قدرات أساسية و18 مهمة عملية في سيناريوهات بصرية غنية بالنصوص. على عكس المعايير الحالية التي تقتصر على تقديم إجابة نهائية فحسب، يوفر هذا المعيار عملية تفكير خطوة بخطوة، مما يُتيح تقييمًا شاملًا للقدرات المتعلقة بالتفكير في النماذج.
في تجربة شاملة، تم تقييم أحدث نماذج MLLMs باستخدام هذا المعيار، وكانت النتائج مفاجئة؛ حيث لم تتمكن أي من هذه النماذج من تحقيق دقة تفوق 50% في مهام التفكير بالصور النصية، مما يُشير إلى أن هذه التحديات تتطلب معالجة عاجلة.
إذا كنت من المتخصصين في مجال الذكاء الاصطناعي أو لديك اهتمام بالتكنولوجيا الحديثة، فإن مراقبة تقدم ممارسات التفكير في الصور الغنية بالنصوص تعتبر مهمة للغاية. يمكنك الاطلاع على مزيد من التفاصيل والتقييمات المتاحة على GitHub. هل تتوقع أن تشهد هذه النماذج تحسنًا ملحوظًا في المستقبل القريب؟ شاركونا آراءكم في التعليقات!
استكشاف قدرات نماذج اللغة الكبيرة: معيار جديد للذكاء الاصطناعي في معالجة الصور النصية المعقدة
تم الكشف عن معيار جديد يُعرف باسم OCR-Reasoning لتقييم أداء نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) في مهام معالجة الصور النصية. النتائج تُظهر أن هذه النماذج تواجه تحديات كبيرة، مع عدم وجود أي نموذج حقق دقة تتجاوز 50%.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
