في السنوات القليلة الماضية، شهدنا طفرة مذهلة في قدرة نماذج اللغات الضخمة (Large Language Models) على توليد إثباتات رياضية رسمية. في دراسة حديثة، تم إجراء تقييم شامل لفعالية مجموعة من هذه النماذج في إنتاج الإثباتات ضمن بيئة Lean 4، بهدف مساعدة الباحثين والمطورين الذين يسعون لاستخدام هذه النماذج لدعم مشاريعهم.

تم استخدام مقاييس محددة مثل pass@$k$ و refine@$k$ كنقاط مرجعية في المقارنة، وتمت الدراسة على مجموعات بيانات تمثيلية مثل miniF2F و miniCTX. أظهرت النتائج أن نموذج Gemini 3.1 Pro حقق معدل نجاح مذهل بلغ 92% على مجموعة miniF2F باستخدام refine@32، في حين جاء نموذج Claude Opus 4.7 في المرتبة الثانية بمعدل نجاح 86% على مجموعة miniCTX بنفس المقياس.

عندما نتحدث عن التكلفة، كانت نماذج مثل NVIDIA Nemotron 3 Super و GPT-OSS 120B الأكثر كفاءة، حيث حققت دقة تنافسية بتكلفة تقل عن 0.01 دولار لكل إثبات صحيح.

هذا التقييم يبرز الإمكانيات الهائلة لتكنولوجيا الذكاء الاصطناعي في مجالات الرياضيات والرسمية، مما يفتح مجالات جديدة للبحث والتطوير. هل أنتم مستعدون لخوض تجربة الذكاء الاصطناعي في مشاريعكم الأكاديمية؟ شاركونا آراءكم في التعليقات!