كشف النقاب عن آلية جديدة لتوقع صعوبة الأسئلة باستخدام نماذج التفكير الكبيرة
تقديم إطار عمل Epi2Diff لتمكين توقعات دقيقة لصعوبة الأسئلة من خلال تحليل تفاعلات نماذج التفكير الكبيرة. هذه التقنية الجديدة تعد بإنعاش طرق تقييم التعليم.
تعد مشكلة توقع صعوبة الأسئلة إحدى القضايا المركزية في عمليات التقييم التعليمي، حيث تُعد التقديرات الموثوقة ضرورة لضمان العدالة وفاعلية تصميم الاختبارات. في السابق، كانت الطرق المتاحة تعتمد غالبًا على عمليات مكلفة لتدريب البشر أو تمثيلات نصية للأشياء، وهو ما يُعطي أدلة محدودة حول العمليات المعرفية التي تجعل بعض الأسئلة صعبة.\n\nلكننا نقترح أن تُعتبر الصعوبة ليست فقط سمة من سمات النص، بل أيضًا نتيجة ملحوظة للعبء العقلي الذي تفرضه الأسئلة. هنا يأتي دور نماذج التفكير الكبيرة (Large Reasoning Models) التي تقدم أدلة عملية قابلة للتطوير من خلال تتبعات التفكير. ومع ذلك، فإن هذه الأدلة تحتاج إلى بنية تدعم نمذجة قابلة للتفسير.\n\nلذلك، نقدم إطار عمل Epi2Diff (Episode to Difficulty)، والذي يقوم بتحويل تتبعات تفكير نماذج reasoning إلى تسلسل حلقات معتمدة على المعرفة. هذا الإطار يقوم بتجميع أجزاء التتبع في حالات فعالة لحل المشكلات، مما يُمكّن من نمذجة الصعوبة من خلال قياس التفكير، وتوزيع الجهد، والانتقالات بين الحالات.\n\nيستخرج Epi2Diff ميزات ديناميكية حلقة مدمجة، ويمزجها مع تمثيلات نصية للأشياء لتوقع صعوبة الأسئلة لدى البشر. أظهرت التجارب على أربعة مجموعات بيانات حقيقية أن Epi2Diff يتفوق بشكل متسق على طرق الأساس القوية، بما في ذلك نماذج اللغة المصغرة المعززة وتعلم نماذج LLM في سياقات معينة. كما حقق Epi2Diff ارتفاعًا متوسطًا بنسبة 8.1٪ مقارنة بنماذج LLM المدربة تحت إشراف.\n\nتظهر التحليلات الإضافية أن الأسئلة الأكثر صعوبة تتطلب المزيد من الجهد المتكرر والتركيز على التنفيذ، بدلاً من كونها تستوجب ردود أطول فقط. توضح هذه النتائج أن الحلقات المعرفية في تتبعات نماذج LRM توفر تمثيلاً متنبئًا وقابلًا للتفسير لصعوبة الأسئلة، مما يمنحنا رؤية جديدة في قياس التعليم باستخدام نماذج التفكير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
