في عالم البحث العلمي، تُعد القدرة على استخراج الصيغ الرياضية بشكل دقيق من مستندات PDF أمرًا بالغ الأهمية لتدريب نماذج اللغة الكبيرة (Large Language Models) وبناء قواعد المعرفة العلمية. ومع ذلك، فإن معظم المعايير الحالية إما تتجاهل الصيغ الرياضية بالكامل أو تفتقر إلى مقاييس تقييم واعية بالمعنى.

لذا، تمهيداً لإحداث نقلة نوعية، تم تقديم إطار تقييم ثوري تم تصميمه خصيصًا لتقييم أدوات استخراج الصيغ الرياضية، والذي يعتمد على PDF يتم إنشاؤه بشكل اصطناعي مع حقيقة LaTeX الدقيقة. هذا الإطار يتيح تحكمًا منهجيًا في تنسيق الوثائق، الصيغ، وخصائص المحتوى.

لاختبار فعالية هذا الإطار، تم استخدام نموذج اللغة الكبيرة كحكم لتقييم المساواة الدلالية بين الصيغ المُستخرجة، مما يسمح بالتقاط المعنى الرياضي بشكل يتجاوز مجرد الاختلافات في كتابة الرموز. وقد تم التحقق من صحة هذا النهج من خلال دراسة بشرية تضمنت 250 زوجًا من الصيغ و750 تقييمًا من 30 مُقيِّمًا، مما أظهر علاقة قوية مع أحكام البشر، حيث كشف عن Pearson correlation قدره r=0.78 مقارنةً بقيمة r=0.34 للتطابق على مستوى الأحرف.

أظهرت نتائج تقييم 20 أداة استخراج حديثة عبر 100 مستند اصطناعي يحتوي على أكثر من 2000 صيغة، وجود اختلافات ملحوظة في الأداء. هذا التطور يقدم توجيهات مفيدة للممارسين في اختيار أدواتهم بشكل أفضل لتطبيقاتهم المستقبلية.

لمن يرغب في الاطلاع على الأكواد وبيانات المعايير، يمكنكم زيارة الروابط التالية [https://github.com/phorn1/pdf-parse-bench](https://github.com/phorn1/pdf-parse-bench) و[https://github.com/phorn1/formula-metric-study](https://github.com/phorn1/formula-metric-study). ما رأيكم في هذه الطريقة الجديدة؟ شاركونا آراءكم في التعليقات.