في عالم الذكاء الاصطناعي، يعد تحليل الوثائق وفهمها من المهام الحيوية التي تعتمد عليها أنظمة نمذجة الرؤية واللغة (VLMs) ومنظومات معالجة الوثائق. ومع ذلك، فإن مقاييس التعرف على النصوص والتحليل الحالية تواجه قيودًا متزايدة من حيث التغطية والصعوبة. معظمها يركز على الأنماط الشائعة من الوثائق أو الصفحات التي تم اختيارها بشكل موحد، حيث تؤدي نماذج التعرف على النصوص أداءً قويًا بالفعل.
لكن، ماذا عن النصوص الأكثر تعقيدًا؟ هنا يأتي دور در دكتور (Dr. DocBench)، المقياس الجديد الذي يهدف إلى مواجهة الصعوبات في تحليل الوثائق المتخصصة. يعتمد هذا المقياس على مجموعة كبيرة من الكوربوسات اللغوية متعددة اللغات ويتضمن 52 مجالًا موضوعيًا محددًا من BISAC. تم اختيار الوثائق الصعبة من خلال تحليل حالات الفشل التي واجهتها الأنظمة الحالية، مما يستهدف وثائق تشكل تحديات كبيرة.
يتضمن در دكتور 4,514 صفحة موضحة من وثائق طويلة بمعدل 100 صفحة، مع 65,000 تعليمة عالية الجودة تخص عناصر التصميم وترتيب القراءة والعلاقات الهيكلية والمحتويات البصرية الخاصة بالمجال.
تكشف تقييمات الأنظمة القائمة على تحليل الأنابيب ونماذج اللغة العامة أن الأداء القوي في المقاييس الموجودة لا ينعكس على تحليل الوثائق المتخصص. تحليل البيانات يكشف عن مجموعة كبيرة من الفشل عبر مجالات متعددة وأنواع محتوى مختلفة وخصائص هيكلية.
يسلط در دكتور الضوء على الحاجة الملحة لتحسين ذكاء الأنظمة في تحليل الوثائق ويعد بمثابة مختبر شامل لتشخيص وتطوير تقنيات معالجة الوثائق. هل تعتقد أن هذه التطورات ستحدث ثورة في مجال التعرف على النصوص؟ شاركونا آراءكم في التعليقات!
در دكتور: مقياس ثوري لتحديات تحليل الوثائق المعقدة!
أطلق الباحثون مقياس در دكتور، الذي يمثل تقدمًا بارزًا في تحليل الوثائق المعقدة من خلال تسليط الضوء على التحديات التي تواجه أنظمة التعرف على النصوص. يوفر المقياس تقييمًا دقيقًا لمستويات الخبرة ويستهدف الوثائق التي تثير صعوبات حقيقية للبرامج الحالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
