تظل فهم الأوراق البحثية من التحديات الكبيرة التي تواجه النماذج اللغوية الأساسية (Foundation Models) وذلك بسبب الخطاب العلمي المتخصص والأشكال والجداول المعقدة. وعلى الرغم من وجود معايير تقييمية، إلا أنها تقدم تقييمات مقيدة وغير دقيقة، مما يحد من قدرة هذه النماذج على فهم المحتوى العلمي بدقة. هنا يأتي معيار RPC-Bench ليمثل طفرة جديدة!

يضم مقاييس الأسئلة والأجوبة (QA) التي بُنيت من تبادلات المراجعة والإعادة (Review-Rebuttal) لأوراق علمية في مجال علوم الحاسوب، ويحتوي على 15,000 زوج من الأسئلة والأجوبة التي تم التحقق منها يدويًا. تم تصميم تصنيف دقيق يتماشى مع تدفق البحث العلمي لتقييم قدرة النماذج على فهم والإجابة عن الأسئلة المتعلقة بالسبب، ماذا وكيف في السياقات الأكاديمية.

علاوة على ذلك، تم تعريف إطار عمل تفصيلي لتفاعل النماذج اللغوية مع البشر لدعم تصنيف البيانات على نطاق واسع وضمان الجودة. وفقًا لمنهجية نموذج القاضي (LLM-as-a-Judge)، تم تطوير إطار عمل قابل للتوسع يقيم النماذج بناءً على دقة وشمولية الإجابة، مع توافق عالٍ مع تقدير البشر.

قد أظهرت التجارب أن حتى أقوى النماذج مثل (GPT-5) تحقق معدل دقة وشمولية يبلغ 68.2%، مما ينخفض إلى 37.46% بعد ضبط الدقة، مما يبرز الفجوات الكبيرة في فهم الأوراق الأكاديمية بشكل دقيق.

المزيد من التفاصيل حول المعايير والبيانات يمكن العثور عليها في الموقع الرسمي [RPC-Bench](https://rpc-bench.github.io/).

ما رأيكم في هذا الابتكار؟ كيف يمكن أن يؤثر على مستقبل البحوث العلمية؟ شاركونا آرائكم في التعليقات!