في عصر الذكاء الاصطناعي، تكتسب النماذج اللغوية الضخمة (Large Language Models - LLMs) دورًا محوريًا في التعليم والتقييم التكيفي. لكن كيف نضمن أن هذه النماذج تقوم بتقييم المهارات بدقة؟ اجتمع الباحثون لتقديم معيار جديد يُعرف باتفاقية تقييم النموذج التوليدي (Generative-Evaluative Agreement - GEA)، والذي يعتبر أداة أساسية لضمان موثوقية النتائج.
تظهر النتائج أن GEA تقيس فعالية وظيفة التقييم في نماذج اللغات الضخمة، حيث تم إجراء أول قياس مباشر لجودة GEA في تقييمين تكيفيين على مرحلتين. يكشف هذا القياس عن قدرة النموذج على استعادة حوالي نصف التباين المستهدف، مع انحياز إيجابي منهجي.
تتفاوت فعالية GEA باختلاف أنواع المهارات: حيث تحقق أداءً قويًا (r > 0.7) في المهارات القابلة للتحقق نحويًا، لكنها تُظهر ضعفًا قريب من الصفر عند تقييم المهارات التصميمية، مما يؤكد ضرورة تطوير معايير دقيقة وقابلة للقياس.
لتحسين GEA، يقترح الباحثون استخدام معايير مفصلة تعالج كل مهارة على حدة، إلى جانب استراتيجيات تكميلية للتخفيف من عيوب التقييمات.
باختصار، يساهم هذا البحث في تعزيز كفاءة التعليم المعتمد على الذكاء الاصطناعي، ويشير إلى أهمية تطوير آليات دقيقة لضمان جودة وفائدة التقييمات التكيفية.
معيار اتفاقية تقييم النموذج التوليدي: قوة جديدة لضمان دقة التقييمات الذكية
يكشف بحث جديد عن أهمية معيار اتفاقية تقييم النموذج التوليدي (GEA) كشرط جوهري لضمان دقة التقييمات المعتمدة على نماذج اللغات الضخمة (LLMs). يتناول البحث كيفية قياس فعالية هذه المعايير في تحسين جودة التقييمات التكيفية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
