في عالم الرياضيات، تُعتبر التوافقات (Combinatorics) جوهر الإجابة على مسائل الأولمبياد الرياضية، حيث تتطلب هذه المسائل مستوى عميقاً من التفكير المنطقي، الابتكار، والدقة الهيكلية. ومع تقدم نماذج الذكاء الاصطناعي، تظهر فجوات ملحوظة في قدرتها على إدارة هذه المسائل المعقدة. هنا يأتي دور ComBench، المعيار الذي يهدف إلى تقييم وتحديد قدرات النماذج الكبيرة في التفكير التوافقي.

يحتوي ComBench على 100 مسألة معتمدة من قبل البشر، تم تنظيمها في إعدادين أساسيين: المشاكل التي تركز على التحليل، والتي تتطلب حججًا رياضية دقيقة، والمشاكل التي تركز على البناء، والتي تحتاج إلى إنشاءات صريحة مع تبريرات صحيحة.

آلية التقييم تعتمد على تصحيح الدلائل المعتمدة على معايير محددة، جنبًا إلى جنب مع التحقق الدقيق من البناء، مما يكشف عن حالات عدم توافق بين جودة الدليل وصلاحية البناء.

تشير التجارب التي أُجريت على نماذج مفتوحة ومغلقة المصدر إلى أن ComBench لا يزال بعيدًا عن الإشباع، حيث لم تصل النماذج الأقوى إلا إلى 65.4% في الأداء العام، و75.3% في أفضل الأداء.

من المهم ملاحظة أن التفكير المنطقي الدقيق (Rigorous Proof Reasoning) والإدراك البنائي (Constructive Realization) هما قدرات متميزة؛ حيث تخلف نموذج Kimi-K2.6 عن GPT-5.5 في تصحيح مسائل التحليل لكنه يتفوق عليه في مسائل البناء.

خلاصة القول، يُظهر هذا المعيار الجديد كيف يمكن للتكنولوجيا الحديثة أن تُحدث تحولاً في طريقة فهمنا وتقييمنا للذكاء الاصطناعي في مجالات الرياضيات المتقدمة.

ما رأيكم في هذا التطور المثير في مجال الذكاء الاصطناعي والرياضيات؟ شاركونا آرائكم في التعليقات!