في خضم تزايد أهمية التعليم القائم على الكفاءة (Competency-Based Education - CBE) عالميًا، يواجه المعلمون تحديًا كبيرًا في التحول من التقييم القائم على الدرجات إلى رسم خرائط كفاءة نوعية. تقدم ورقة جديدة حلاً مبتكرًا لهذا التحدي من خلال اقتراح إطار عمل "Human-in-the-Loop" لتقييم فعالية مجموعة من نماذج اللغات الكبيرة (Large Language Models - LLMs) في أتمتة تقييم الرياضيات على مستوى التعليم الثانوي.

استندت الدراسة إلى منهج الرياضيات الاختياري للصف العاشر في نيبال، حيث تم تطوير معيار متعدد الأبعاد لأربعة مواضيع وأربعة كفاءات متقاطعة: الفهم، والمعرفة، والكفاءة التشغيلية، والسلوك والارتباط. تم تقييم نماذج متعددة مثل النموذجين المفتوحين – Eagle (Llama 3.1-8B) و Orion (Llama 3.3-70B) والنماذج المتقدمة Nova (Gemini 2.5 Flash) و Lyra (Gemini 3 Pro) – مقابل الحقيقة الأساسية التي حددها اثنان من أعضاء هيئة التدريس في الرياضيات.

أظهرت النتائج فجوة ملحوظة في "توافق المعمارية"، على الرغم من أن نماذج Mixture-of-Experts المستندة إلى Gemini حققت "توافقًا عادلًا"، حيث أظهر النموذج Orion الأكبر حجمًا "عدم توافق"، مما يشير إلى أن الالتزام المعماري بقيود التعليم يفوق أهمية حجم المعاملات الخام في المهام المقيدة بمعايير التقييم.

في الختام، بينما لم تبلغ نماذج اللغات الكبيرة مستوى مناسبًا للاعتماد الذاتي، فإنها تقدم دعمًا مساعدًا عالي القيمة لاستخراج الأدلة الأولية ضمن إطار "Human-in-the-Loop".