يستمر مجال تصنيف الوثائق في مواجهة تحديات جديدة، خاصةً في حالة الوثائق الغنية بالمحتوى البصري. إن تحديد نوع الوثائق يتطلب التعامل مع معلومات موزعة بين النصوص والصور وتخطيط الصفحة. ومع ذلك، يبرز عدد من الاستراتيجيات متعددة الوسائط (Multimodal approaches) كحلول واعدة، حيث تتمثل الفكرة في دمج معلومات من هذه الوسائط الثلاثة لتحقيق أفضل النتائج.

تتعدد الأساليب المستخدمة في هذا المجال، مما يؤدي إلى وجود هياكل متباينة ومعقدة تصعب المقارنة منها، وتُظهر الدراسات الحالية عدم اتساق في الإعدادات التقييمية. لذا، يأتي هذا البحث ليقدم تحليلًا مهيكلاً يستند إلى نماذج متعددة الوسائط، مع التركيز على النماذج المعتمدة على المحولات ونماذج اللغات الضخمة (Transformer-based and LLM-based architectures).

تقوم الدراسة بتقييم أربعة نماذج نموذجية: LayoutLMv3 وDonut وQwen3-VL-32B-Instruct وQwen3-32B، وذلك على قاعدة بيانات RVL-CDIP. الهدف هو تحليل كيفية مساهمة النصوص والصور وتخطيط الوثائق في عملية تصنيف الأنواع. تركيز خاص يُعطى للمقارنة بين الأساليب المعتمدة على التعرف الضوئي على الحروف (OCR) وتلك التي لا تعتمد عليها.

وتظهر النتائج أن النماذج متعددة الوسائط التقليدية تتفوق على النماذج المعتمدة على LLMs عند التعامل مع وثائق غنية بالصور ومعقدة من حيث التخطيط. حيث كانت المعلومات البصرية العامل الأهم في ضمان تصنيف موثوق، بينما كان النص المستمد من OCR داعمًا ثانويًا. تسلط هذه النتائج الضوء على أهمية المعالجة متعددة الوسائط في الوثائق التي تتميز ببنية تخطيطية واضحة.

بصفة عامة، توفر هذه الدراسة أساسًا منهجيًا للمقارنة بين الهياكل متعددة الوسائط، كما تقدم إرشادات عملية لاختيار تركيبات ميزات فعالة وتصميمات نماذج ناجحة لتصنيف الأنواع الوثائقية.