في عصر يتزايد فيه الاعتماد على نماذج اللغات الضخمة (Large Language Models - LLMs) كمساعدين في التعلم الذاتي، تبرز أسئلة حول موثوقيتها في مجالات مثل الرياضيات، وخاصة في نظرية الرسم. في هذا السياق، تم تقديم معيار GTBench كمعيار جديد مصمم خصيصًا لتقييم هذه النماذج في سياق الأبحاث الرياضية.

يتكون GTBench من 63 مسألة مصنفة إلى ثلاث مجموعات بحسب درجة الصعوبة، تشمل:

1. **المجموعة الأولى**: تعريفات ومفاهيم أساسية (المستوى الجامعي).
2. **المجموعة الثانية**: تتبع خوارزميات واستدلالات هيكلية.
3. **المجموعة الثالثة**: بناء براهين على مستوى الدراسات العليا.

تم تصميم هذه المسائل استنادًا إلى مواد أكاديمية موثوقة، مثل كتاب دياستل (Diestel) حول نظرية الرسم. تم تقييم خمسة نماذج رائدة، هي: GPT-5، Claude Sonnet 4.6، Gemini 2.5 Flash-Lite، Llama 3.3 70B، وMistral Large 3، في ظروف مختلفة تشمل عدم وجود معلومات سابقة (zero-shot) واستخدام أسلوب تفكير متسلسل.

كشفت النتائج عن تباين بارز في الأداء، حيث اقترب نموذج GPT-5 من الحد الأقصى في المجموعة الأولى بنسبة دقة 95.8%، بينما تراجعت دقة النماذج الأخرى بشكل ملحوظ عند زيادة صعوبة المسائل. كما أثبت نموذج Llama فشله في التقييمات البشرية للمجموعة الثالثة حيث حصل على 0%.

بينت التحليلات أن الأخطاء الشائعة تتعلق بالتطبيق الخاطئ للخوارزميات في المجموعتين الأولى والثانية، بينما ظهرت في المجموعة الثالثة أخطاء تتعلق بالاستدلال غير المكتمل، مع وجود تباين منهجي بين التقييمات البشرية والقضاة الآليين.

يعد GTBench أول إطار تقييم قائم على منهج دراسي في استدلال نظرية الرسم بالنسبة لنماذج اللغات الضخمة، مما يطرح تساؤلات مهمة حول إدارة أدوات الذكاء الاصطناعي في التعليم الرياضي والبحث العلمي. في ضوء ما سبق، كيف ترى تأثير هذه المعايير على مستقبل استخدام الذكاء الاصطناعي في التعليم؟ شاركونا في التعليقات!