في عالم الذكاء الاصطناعي (Artificial Intelligence)، كان التحدي في فهم الوثائق متعددة المجالات خطوة جديدة ومثيرة. فقد شارك فريقنا في مهمة مشاركة الشأن الخامسة من الأمم المتحدة لفهم الوثائق متعددة المجالات، حيث كانت المهمة تكمن في الإجابة على أسئلة متعددة الاختيارات باللغة الأوكرانية من مجموعات PDF وتحديد الوثيقة والصفحة الداعمة.

ولإحداث نقطة تحول، قدمنا نظاماً يعتمد على تعزيز استرجاع المعلومات (Retrieval-Augmented Pipeline) الذي بُني على ثلاث أفكار رئيسية:

1. **تقسيم دقيق للصفحات**: تطبيق تقنيات تقسيم سياقي على ملفات PDF لتحسين أداء البحث.
2. **استرجاع مليء بالأسئلة**: الاعتماد على استرجاع كثيف للمعلومات مع التوجيه تجاه الأسئلة المطروحة.
3. **إعادة ترتيب الأجوبة**: توظيف أساليب إعادة ترتيب استناداً إلى كل من الأسئلة والخيارات المتاحة.

النظام النهائي الذي اعتمدنا عليه يتضمن Qwen3-Embedding-8B لعملية الاسترجاع، وQwen3-Reranker-8B لعملية تصنيف الفقرات، وQwen3-32B لاختيار الإجابات. وارتفعت دقة الاسترجاع بشكل ملحوظ، حيث زادتRecall@1 من 0.6957 إلى 0.7935، بينما زادت دقة الإجابة باستخدام أفضل فقرتين تم إعادة ترتيبها من 0.9348 إلى 0.9674. وفي تصنيفنا الأفضل على القائمة، تمكنّا من الوصول إلى 0.9452 في القائمة العامة و0.9598 في القائمة الخاصة.

تظهر نتائجنا، تحت ضغوط المنافسة الصارمة، أن الحفاظ على هيكل الوثيقة وجعل تقدير الأهمية واعيًا لمساحة الإجابة أكثر فعالية من إضافة تعقيدات خداعية أخرى. إن هذه الخطوات تمثل ركيزة جديدة في استخدام الذكاء الاصطناعي لتحسين فهم الوثائق، مما يفتح آفاق جديدة لمستقبل البحث والتطوير في هذا المجال.