في بادرة جديدة تعيد تعريف الطريقة التي نتناول بها البراهين الرياضية، تعرض دراسة حديثة على منصة arXiv *إطار عمل متطور للتحقق من صحة البراهين الرياضية*، انطلاقاً من المشاكل التي تواجهها نماذج اللغة الكبيرة (Large Language Models) في التحقق منها بدقة. حيث تشير النتائج إلى أن الطرق التقليدية للتقييم تتعرض لمشكلات مثل "تسمم السياق"، حيث يمكن أن تغطي التصريحات التي تبدو معقولة على السطح، أخطاء منطقية دقيقة، مما يؤدي إلى حالات من الهلاوس أو التشكيك المفرط في البراهين.

للتغلب على هذه العقبات، اتجه الباحثون إلى التحقق الصارم على مستوى الخطوات (strict step-level verification). شمل هذا النهج الحفاظ على سياق مفصل لكل خطوة استدلال، مع تقييد صارم لمصادر النظريات المطبقة. تم تقييم هذه المنهجية الجديدة باستخدام مجموعة مختارة بعناية من البراهين الرياضية المستندة إلى تحدي *FirstProof*.

أظهرت دراسات الإقصاء المنهجية أن هذه القيود الاستدلالية ضرورية، حيث أن الممارسات العالمية غير المقيدة تفشل باستمرار في تحديد الأخطاء المنطقية الدقيقة. بدلاً من حدوث هلاوس منطقية شديدة، أشارت التحليلات إلى أن الرفض المتبقي ينجم بشكل رئيسي عن "اجتهاد مفرط" ناتج عن تقاليد مجال غير مذكورة، مما يكشف عن الغموض الضمني في المعايير الخبيرة نفسها.

تشير النتائج إلى أن توجيه الوكلاء (agents) لتنظيم ملاحظاتهم في عملية التحقق بشكل حذر يشبه أسلوب الرياضيين البشريين يمكن أن يحسن كثيرًا من قدرتهم على التمييز بين البراهين الصارمة والبراهين flawed. كما تشير الدراسة إلى إمكانية تعزيز التفكير الوكالي في مفاهيم رياضية متقدمة لا يعرفها النموذج الأساسي جيدًا، مما يمهد الطريق لنظم مراجعة البراهين الآلية المستقبلية.

للمهتمين بالتفاصيل التقنية، تم نشر الكود والأوامر المتاحة على منصة GitHub.