من الدرجات إلى التفسير: تقييم SHAP ونماذج اللغة الكبيرة في قياس جودة التعليم

Q: ما هو موضوع مقال "من الدرجات إلى التفسير: تقييم SHAP ونماذج اللغة الكبيرة في قياس جودة التعليم"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "من الدرجات إلى التفسير: تقييم SHAP ونماذج اللغة الكبيرة في قياس جودة التعليم" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تزداد أهمية النماذج الآلية في تقييم أداء الطلاب اللغوي، حيث يتم استخدام نماذج scoring الآلية لتقديم درجات قائمة على المعايير للجودة. إلا أن هذه النماذج غالبًا ما تفتقر إلى الشفافية ولا توضح السبب وراء التقييم المدعوم. في هذا الإطار، تم تقديم إطار عمل عام يدمج بين الخصائص التفسيرية على مستوى الجمل باستخدام قيمة Shapley (SHAP) والتفسيرات التي تولدها نماذج اللغة الكبيرة (Large Language Models - LLMs).

تم تطبيق هذا الإطار على بُعد جودة التغذية الراجعة في إطار CLASS باستخدام مجموعة بيانات NCTE. يتيح هذا الإطار مقارنة منهجية بين نماذج اللغة المدربة مسبقًا بدقة ونماذج LLMs التي تم تحفيزها، من حيث أداء التقييم وموثوقية الشرح.

على مدار 6000 مقطع مُعتمد، أظهرت نماذج اللغة المدربة مسبقًا تفوقًا في دقة التنبؤ، ولكنها أظهرت انقباضًا في الدرجات نحو المتوسط. تظهر الاختبارات بالاعتماد على الحذف أن SHAP تحدد الجمل التي تحرك تنبؤات النماذج بشكل موثوق، مما يؤدي عادةً إلى تحولات تنبؤية أكبر وأكثر اتساقًا من التفسيرات المستخلصة من نماذج LLMs.

تكشف التحليلات عبر النماذج أن خصائص SHAP تنتقل بشكل قوي عبر المعماريات، في حين أن تفسيرات نماذج LLMs تؤثر بشكل محدود وغير متسق. بصفة عامة، تُظهر النتائج أن SHAP تقدم تفسيرات أكثر موثوقية وقابلية للنقل لتقييمات الجودة القائمة على المعايير، مما يساهم في توفير أساس منهجي لتقييم النماذج التقييمية وتفسيراتها في البيئات التعليمية ذات الأهمية العالية ومهام تقييم اللغة الأخرى.

من الدرجات إلى التفسير: تقييم SHAP ونماذج اللغة الكبيرة في قياس جودة التعليم

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

ثورة في العلاج العصبي: جهاز جديد يُزرع في دماغ الإنسان من شركة ماكس هوداك