تزداد أهمية النماذج الآلية في تقييم أداء الطلاب اللغوي، حيث يتم استخدام نماذج scoring الآلية لتقديم درجات قائمة على المعايير للجودة. إلا أن هذه النماذج غالبًا ما تفتقر إلى الشفافية ولا توضح السبب وراء التقييم المدعوم. في هذا الإطار، تم تقديم إطار عمل عام يدمج بين الخصائص التفسيرية على مستوى الجمل باستخدام قيمة Shapley (SHAP) والتفسيرات التي تولدها نماذج اللغة الكبيرة (Large Language Models - LLMs).
تم تطبيق هذا الإطار على بُعد جودة التغذية الراجعة في إطار CLASS باستخدام مجموعة بيانات NCTE. يتيح هذا الإطار مقارنة منهجية بين نماذج اللغة المدربة مسبقًا بدقة ونماذج LLMs التي تم تحفيزها، من حيث أداء التقييم وموثوقية الشرح.
على مدار 6000 مقطع مُعتمد، أظهرت نماذج اللغة المدربة مسبقًا تفوقًا في دقة التنبؤ، ولكنها أظهرت انقباضًا في الدرجات نحو المتوسط. تظهر الاختبارات بالاعتماد على الحذف أن SHAP تحدد الجمل التي تحرك تنبؤات النماذج بشكل موثوق، مما يؤدي عادةً إلى تحولات تنبؤية أكبر وأكثر اتساقًا من التفسيرات المستخلصة من نماذج LLMs.
تكشف التحليلات عبر النماذج أن خصائص SHAP تنتقل بشكل قوي عبر المعماريات، في حين أن تفسيرات نماذج LLMs تؤثر بشكل محدود وغير متسق. بصفة عامة، تُظهر النتائج أن SHAP تقدم تفسيرات أكثر موثوقية وقابلية للنقل لتقييمات الجودة القائمة على المعايير، مما يساهم في توفير أساس منهجي لتقييم النماذج التقييمية وتفسيراتها في البيئات التعليمية ذات الأهمية العالية ومهام تقييم اللغة الأخرى.
من الدرجات إلى التفسير: تقييم SHAP ونماذج اللغة الكبيرة في قياس جودة التعليم
تتناول هذه الدراسة كيفية دمج تفسيرات نماذج scoring الآلية باستخدام SHAP ونماذج اللغة الكبيرة لتحسين تقييم جودة التعليم. النتائج تشير إلى أن SHAP توفر تفسيرات أكثر دقة وقابلية للنقل مقارنةً بالتفسيرات المستخلصة من نماذج اللغة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
