تشهد نماذج اللغة الصينية الكبيرة (Chinese Language Models) تطوراً ملحوظاً، ولكن يظل هناك نقص في تقييم قدراتها بشكل شامل. لذا، قدم الباحثون اختباراً مبتكراً يقيس دقة النماذج عبر مجالات حيوية تتمثل في الطب، القانون، علم النفس، والتعليم. يتضمن الاختبار 15 مهمة فرعية في الطب و8 مهام في التعليم.
تشير النتائج إلى أن أفضل النماذج أداءً في الحالة بدون تدريب (Zero-Shot) تفوقت على أسوأ النماذج بمعدل يقارب 18.6 نقطة مئوية في المتوسط. وعلى مستوى الدقة، بلغ أعلى متوسط دقة للنماذج في هذا الإطار 0.512، بينما تفوق نموذج GPT-3.5-turbo بشكل خاص، حيث حقق دقة تصل إلى 0.693 في مجال الطب السريري. هذا الأداء هو الأفضل بين جميع النماذج المطروحة.
ومع ذلك، تشير المعطيات إلى أداء ضعيف للنماذج في المجال القانوني، حيث لم تتجاوز أعلى دقة في هذا القطاع 0.239. من خلال هذا الاختبار الشامل، يمكن الكشف عن الفجوات في المعرفة لدى هذه النماذج ومعرفة نقاط الضعف التي تحتاج إلى تحسين.
إن تطوير مثل هذه الاختبارات يعد خطوة هامة في تحسين جودة نماذج الذكاء الاصطناعي، مما يسهم في تعزيز استخدامها في مجالات متعددة، فضلاً عن دعم البحث الأكاديمي والتطوير الصناعي. يتضح جلياً أن التحدي المقبل يكمن في إصلاح هذه الفجوات والارتقاء بمستويات الأداء لدى نماذج اللغة الصينية الكبيرة، ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
ثورة جديدة في قياس فَهْم اللغة الصينية: اختبار متعدد المهام يكشف النقاب عن إمكانيات نماذج الذكاء الاصطناعي!
تم تطوير اختبار جديد يقيس دقة نماذج اللغة الصينية الكبيرة عبر مجالات متعددة مثل الطب والقانون. النتائج تكشف عن تفوق بعض النماذج بشكل ملحوظ في فئات معينة، مما يبرز الفجوات المعرفية لدى هذه الأنظمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
