في عالم الذكاء الاصطناعي المؤسسي، تمثل الوثائق عنصراً أساسياً يتطلب معالجة معقدة تبدأ من التحليل ثم الفهرسة واسترجاع المعلومات وصولاً إلى توليد المحتوى. ومع ذلك، كانت التحديات تكمن في تقييم النظام ككل وفعالية كل مرحلة في هذه العملية. لحل هذه المعضلة، تم تصميم إطار العمل الجديد المعروف باسم **EnterpriseDocBench**.
**مكونات تقييم شاملة**
يهدف هذا الإطار إلى تقييم مدى دقة عملية التحليل وكفاءة الفهرسة وملاءمة الاسترجاع وموثوقية التوليد ضمن نفس مجموعة البيانات. وقد تم بناء مجموعة البيانات من وثائق عامة تتسم بالتراخيص المرنة، وذلك عبر ستة مجالات مؤسسية. اختبرت الدراسة ثلاثة أنظمة معالجة معروفة: **BM25**، **dense embedding**، ونموذج هجيني، جميعها استخدمت نفس مولد **GPT-5**.
**نتائج مفاجئة**
أظهرت النتائج التفصيلية أن النظام الهجين تفوق بشكل ضيق على **BM25** في مجال استرجاع البيانات، حيث سجل نسبة **nDCG@5** مقدارها 0.92، في حين أن النموذجين الآخرين قدما أداء أقل. وأشارت النتائج أيضاً إلى أن هلاوس المعلومات تزيد بشكل غير مرتبطة مع طول الوثيقة، حيث سجلت الوثائق القصيرة والطويلة نسبة هلاوس أعلى من تلك التي في الوثائق المتوسطة.
وعلى الرغم من دقة المعلومات المقدمة من النظام، التي بلغت 85.5%، فإن تكامل الأجوبة كان أقل بكثير، حيث بلغ المعدل 0.40. الأمر الذي يشير إلى أن النظام يعاني من ترك أجزاء معينة هامة.
**جزء من رؤية مستقبلية**
في سياق التطورات المقبلة، سيتم مشاركة الأطر والمقاييس الأساسية والنماذج المفتوحة المصدر قريباً بعد قبول الدراسة. يُظهر هذا العمل كيفية دمج الأبحاث الأكاديمية مع تطبيقات الذكاء الاصطناعي في القطاع المؤسسي، مما يمهد الطريق لمزيد من الابتكارات في المستقبل.
ما رأيكم في هذا التطور الجديد في معالجة الوثائق؟ شاركونا آراءكم في التعليقات!
إطلاق معيار موحد لتقييم عمليات معالجة الوثائق متعددة الوسائط في الذكاء الاصطناعي المؤسسي
تمثل الدراسة الجديدة تطوراً في تقييم أنظمة الذكاء الاصطناعي للوثائق المؤسسية، حيث تقدم نهجاً موحداً يشمل تحليل الدقة والكفاءة في مراحل متعددة. النتائج تكشف عن مفاجآت في دقة المعلومات المكتسبة وسهولة الاسترجاع.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
