تشهد نماذج اللغة الصينية الكبيرة (Chinese Language Models) تطوراً ملحوظاً، ولكن يظل هناك نقص في تقييم قدراتها بشكل شامل. لذا، قدم الباحثون اختباراً مبتكراً يقيس دقة النماذج عبر مجالات حيوية تتمثل في الطب، القانون، علم النفس، والتعليم. يتضمن الاختبار 15 مهمة فرعية في الطب و8 مهام في التعليم.

تشير النتائج إلى أن أفضل النماذج أداءً في الحالة بدون تدريب (Zero-Shot) تفوقت على أسوأ النماذج بمعدل يقارب 18.6 نقطة مئوية في المتوسط. وعلى مستوى الدقة، بلغ أعلى متوسط دقة للنماذج في هذا الإطار 0.512، بينما تفوق نموذج GPT-3.5-turbo بشكل خاص، حيث حقق دقة تصل إلى 0.693 في مجال الطب السريري. هذا الأداء هو الأفضل بين جميع النماذج المطروحة.

ومع ذلك، تشير المعطيات إلى أداء ضعيف للنماذج في المجال القانوني، حيث لم تتجاوز أعلى دقة في هذا القطاع 0.239. من خلال هذا الاختبار الشامل، يمكن الكشف عن الفجوات في المعرفة لدى هذه النماذج ومعرفة نقاط الضعف التي تحتاج إلى تحسين.

إن تطوير مثل هذه الاختبارات يعد خطوة هامة في تحسين جودة نماذج الذكاء الاصطناعي، مما يسهم في تعزيز استخدامها في مجالات متعددة، فضلاً عن دعم البحث الأكاديمي والتطوير الصناعي. يتضح جلياً أن التحدي المقبل يكمن في إصلاح هذه الفجوات والارتقاء بمستويات الأداء لدى نماذج اللغة الصينية الكبيرة، ما رأيكم في هذا التطور؟ شاركونا في التعليقات.