في خطوةٍ جديدةٍ تُمهد الطريق لفهم أعمق لآلية عمل نماذج الذكاء الاصطناعي (AI)، أظهرت دراسة حديثة أن تغيير لغة القاضي يمكن أن يُحدث تغييرًا جذريًا في ترتيب نماذج الذكاء الاصطناعي في الاختبارات. يظل اللغة الإنجليزية هي الافتراضية في قياسات الذكاء الاصطناعي، لكن الأبحاث الأخيرة توضح أن استخدام لغات مختلفة مثل العربية والتركية والصينية والهندية يؤثر بشكل كبير على التسلسل الهرمي للأداء.

تمت دراسة أداء خمسة نماذج لغوية في 55 مهمة تطوير عبر ثلاثة أطر عمل للمطورين، حيث شملت الدراسة 4950 عملية تقييم. النتائج تمثلت في تفوق النموذج Gemini في اللغة العربية بنسبة 51.72%، مقارنةً بـ GPT-4o الذي حصل على 44.72% في الإنجليزية. كما تُمثل هذه النتائج أهمية اللغة كعامل رئيسي في التقييم، مما يدفع إلى إعادة التفكير في كيفية تصميم الاختبارات في المستقبل.

إن هذا البحث يسلط الضوء على الحاجة إلى أن يتعامل المطورون مع اللغة كمتغير تقييم رئيسي، بدلاً من اعتبارها ثابتة. إذ أن فهم تفاعلات اللغة والنموذج قد يؤثر على كيفية تطوير التطبيقات الذكية في مجموعة متنوعة من السياقات.