في عالم البرمجيات، تطورت نماذج الذكاء الاصطناعي، خاصة نماذج اللغات الكبيرة (Large Language Models)، لتصبح أدوات قادرة على الإجابة على أسئلة الشهادات المهنية. وقد أجرى بحث حديث مقارنة بين ثلاث نماذج متطورة وهي

- **GPT-5 mini**
- **Gemini 3 Flash**
- **DeepSeek Chat 3.2**

الهدف كان اختبار كفاءتها في الإجابة على **993 سؤالًا** تتعلق بشهادة Scrum Professional Scrum Master I (PSM I).

تقييم الأداء ">تقييم الأداء



استخدم الباحثون ثلاثة استراتيجيات للتوجيه عند مقدار الانتباه المطلوب من النماذج، وهي:
1. **zero-shot**
2. **chain-of-thought**
3. **source-grounded**

كشفت النتائج عن فارق واضح في الأداء، حيث حقق **Gemini 3 Flash** أعلى مستوى من الدقة، تليه **GPT-5 mini** ثم **DeepSeek Chat 3.2**، مع بقاء التباين الداخلي للنماذج منخفضًا في جميع الشروط.

نوعية الأسئلة



لوحظ أن النماذج قدمت أداءً ممتازًا في الأسئلة ذات الإجابات المتعددة، بينما كانت الأسئلة متعددة الاختيارات والأسئلة الصحيحة/الغلط تميل إلى أخطاء أكثر. كما أظهرت الفروق بين الموضوعات أن الأداء كان أفضل في المناطق ذات التعريفات الواضحة، مثل **Artifacts** و**Empiricism** و**Product Value**، لكن الأداء كان أقل استقرارًا في مواضيع مثل **Scrum Values** و**Self-Managing Teams** و**Stakeholders & Customers**.

تحليل الأخطاء ">تحليل الأخطاء



من الجوانب المثيرة التي تم اكتشافها هي أن الأخطاء كانت نمطية وليست عشوائية، حيث تمثلت في تعميمات مفرطة وصياغة مقيدة وأخطاء مرتبطة بالتعاريف الصارمة لاستراتيجيات Scrum.

إن هذه الدراسات لا تعكس فقط القدرات الفائقة لتقنيات الذكاء الاصطناعي، ولكن أيضًا الحاجة الملحة لفهم كيفية عملها وتحسين دقتها. ما هو النموذج الذي تعتقد أنه سيحقق أفضل أداء في شهادات أخرى؟ شاركونا آراءكم في التعليقات!