أعلن فريق بحثي عن إطلاق مجموعة بيانات جديدة تُدعى AIriskEval-edu-db2، تصمم خصيصًا لتدريب وتقييم مدققي المخاطر من خلال نماذج اللغة الكبيرة (Large Language Models) في سياق التعليم. تُعرف هذه المجموعة بأنها خطوة هامة نحو تحسين جودة التعليم عبر تقديم تقييمات تعليمية دقيقة ومفسرة.
تتكون المجموعة من 1639 تفسيرًا مُعدًا لأكثر من 170 سؤالًا مُختارًا من ScienceQA، تشمل مواد العلوم والفنون اللغوية والعلوم الاجتماعية. وتمتاز بضمها لتفسيرات مكونة من قبل معلمين بشريين بالإضافة إلى 11 تفسيرًا آخر تم توليدها بواسطة نماذج لغوية محاكاة لمعلمي الذكاء الاصطناعي، مما يشير إلى مخاطر تعليمية مختلفة.
قام الباحثون بتطوير معيار شامل لتقييم المخاطر يتماشى مع المعايير التعليمية المعترف بها، ويغطي خمسة أبعاد تكاملية: دقة الحقائق، العمق والشمولية، التركيز والملاءمة، الملاءمة لمستوى الطلاب، والانحياز الإيديولوجي. ويُعد إضافة 785 تفسيرًا مصحوبًا بملاحظات هيكلية حول القابلية للتفسير من خلال عملية شبه آلية تحقق منها معلمون خبراء، من المساهمات الهامة لهذه الدراسة.
تضمنت التجارب التي تم إجراؤها مقارنة بين النماذج الرائدة في السوق والنموذج المحلي الخفيف Llama 3.1 8B، وذلك في مجالات كشف المخاطر التعليمية وتقييم القابلية للتفسير. هذه التجارب تهدف إلى معرفة ما إذا كان التخصيص تحت إشراف النموذج AIriskEval-edu-db2 يمكن أن يُقرب النموذج المحلي من النماذج القوية، مع الحفاظ على الخصوصية في مهام التدقيق والتقييم التعليمي.
أحدث المستجدات في التعليم: مجموعة بيانات جديدة لتقييم المخاطر في الذكاء الاصطناعي للمدارس
تم إطلاق مجموعة بيانات AIriskEval-edu-db2 المبتكرة لتدريب وتقييم مراقبي المخاطر وتقديم تفسيرات تعليمية للطلاب. تضم المجموعة 1639 تفسيرًا يساعد في تقييم المخاطر التعليمية بأساليب فعالة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
