في عصر الذكاء الاصطناعي، تزداد فعاليات نماذج اللغة الضخمة (Large Language Models) في حل المشكلات الرياضية، ومع ذلك فإن قياس التفكير المنطقي خطوة بخطوة في الإثباتات الطويلة لا يزال يمثل تحديًا كبيرًا. هذا الفجوة في التقييم تعيق التقدم العلمي الموثوق.
قام الباحثون بتقديم نظام Mask-Proof، وهو عبارة عن خط أنابيب آلي يقوم بتحويل الإثباتات الحقيقية إلى مهام خطوات مقنعة يمكن التحقق منها تلقائيًا. حيث يقوم Mask-Proof بتغطية خطوات المعادلات الأساسية ويقدم السياق الضروري، بالإضافة إلى تقييم إعادة بناء النماذج باستخدام قاضي معتمد على نماذج لغوية ضخمة، مما يؤدي إلى استقرار النتائج من خلال تصويتات متكررة.
تحتوي منصة Mask-ProofBench على 292 مشكلة تم تنسيقها عبر مجالات بحثية متنوعة. أظهرت التجارب مع 17 نموذجًا أن النماذج المحسّنة من حيث التفكير تتفوق على النماذج القياسية بنسبة تتراوح بين 12% إلى 27%. كما أن مُقيّم النتائج قد حقق اتفاقًا بنسبة 96.8% مع المراجعين الخبراء، مما يتيح قياسًا موثوقًا وقابلًا للتكرار قابلًا للمقارنة في مجال التفكير الرياضي.
للمزيد من التفاصيل، يمكن زيارة Mask-Proof Bench على جيثب.
ما رأيكم في هذا التطور المثير في مجال تقييم الإثباتات الرياضية؟ شاركونا آراءكم في التعليقات.
اكتشاف Mask-Proof: ثورة جديدة في تقييم إثباتات الرياضيات باستخدام نماذج الذكاء الاصطناعي!
أطلق الباحثون ابتكارًا جديدًا يسمى Mask-Proof، وهو نظام آلي يقيّم الإثباتات الرياضية بدقة. يعتمد هذا النظام على نماذج لغوية ضخمة (LLMs) لتقديم تجربة تقييم موثوقة وقابلة للتكرار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
