تشهد صناعة التعليم تحولات جذرية نتيجة تقدم الذكاء الاصطناعي التوليدي (Generative AI)، الذي يُساهم بشكل متزايد في مهام تصميم التقييمات. على سبيل المثال، توفر نماذج اللغات الضخمة (Large Language Models) قدرات استثنائية لصياغة أسئلة تقييم تتماشى مع الإطارات التعليمية المعروفة مثل تصنيف بلوم (Bloom's taxonomy).
ومع ذلك، تظل التقييمات التقليدية تعتمد على طرق تقييم ذاتية أو محدودة، كما تركز بشكل كبير على النماذج التجارية، ما يعيق الفحص المنهجي للقيود التي قد تواجه توليد الأسئلة وتقييمها ضمن بيئات تعليمية حقيقية.
في سياق هذا التطور، ظهرت نماذج لغوية صغيرة (Small Language Models) كبديل محلي يحتمل أن يكون له تأثير كبير من خلال التعامل بفعالية مع قيود الخصوصية والموارد؛ إلا أن فعاليتها في مهام التقييم لا تزال غير مستكشَفة بشكل كافٍ.
لمعالجة هذه الثغرة، قام الباحثون بمقارنة شاملة بين نماذج اللغات الضخمة ونماذج اللغات الصغيرة من حيث تصميم أسئلة التقييم. تم تقييم جودة الجيل عبر مستويات تصنيف بلوم باستخدام معايير تضرب بجذورها في التعلم، كما تم تقييم صحة النماذج بناءً على مقارنة آراء الخبراء.
أظهرت النتائج أن نماذج اللغات الصغيرة تُحقق أداءً تنافسياً عبر أبعاد الجودة المرتبطة بالتعليم، معتمدةً على تنفيذ محلي يحترم الخصوصية. ومع ذلك، أظهرت التقييمات المستندة إلى النماذج أيضاً وجود تباينات منهجية وتحيزات مقارنةً بتقييمات الخبراء.
تشير هذه النتائج إلى إمكانية اعتبار النماذج اللغوية مساعدين محصَّرين في تدفقات العمل الخاصة بالتقييم، مما يبرز ضرورة دمج العنصر البشري في هذه العملية، في ظل سعي متواصل لتطوير مجال توليد الأسئلة التعليمية بشكل آلي مع الأخذ بعين الاعتبار الجودة والموثوقية والتوازن أثناء التنفيذ.
نماذج لغوية صغيرة خاصة: شركاء مثاليون في تصميم تقييمات التعليم!
تتطرق الدراسة الحالية لتعزيز استخدام نماذج لغوية صغيرة (SLMs) في تصميم الأسئلة التعليمية، مبيّنةً تفوقها في الخصوصية والكفاءة. تعكس النتائج أهمية دمج العنصر البشري في هذه العملية لتحقيق نتائج مثلى.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
