في عالم الذكاء الاصطناعي، يعتبر التفكير الإجرائي (Procedural Reasoning) أحد عوامل النجاح الأساسية في أنظمة التعلم المدعومة بالآلات. ولكن، ما الذي يجعل تقييم هذا النوع من التفكير دقيقًا وفعالًا؟
قامت دراسة جديدة نُشرت في arXiv بفحص استراتيجيات توليد بيانات التقييم اللازمة لتقييم التفكير الإجرائي. هذه الاستراتيجيات تركز على أهمية أن تكون الأسئلة والجوابات مثل تلك التي ينتجها الطلاب، ومدى ارتباطها بالمعرفة التعليمية التي يجب على النظام استخدامها.
تُقارن الدراسة بين ثلاث استراتيجيات لتوليد الأسئلة:
1. **التوليد الصارم** (Strict Generation) باستخدام نماذج المعرفة والإجراءات (Task-Method-Knowledge - TMK).
2. **التوليد وفق النسخ أولاً** (Transcript-First Generation) مع تصفية TMK لاحقًا.
3. **التوليد مع التوعية بـ TMK** (TMK-Aware Generation) الذي يدمج النسخ مع إرشادات محددة.
تقديم إطار عمل لتقييم الأسئلة الناتجة يعتمد على وحدات الدليل المستندة إلى TMK، يشمل هل تدعم الإجابات التمثيل الأساسي، وهل الأسئلة مكتفية ذاتيا، وهل تستهدف التفكير الإجرائي متعدد الخطوات.
تشير النتائج إلى أن التوليد الصارم لنماذج TMK يحقق أفضل جودة إجمالية، حيث يتمتع بنسبة 96.5% من الأسئلة الأساسية و92.6% من الأسئلة القابلة للاستخدام. بينما التوليد وفق النسخ أولاً ينتج أسئلة أكثر شبهًا بتلك التي ينشئها المتعلم، لكنه يأتي بأسئلة ضعيفة التوجه أو ذات صلة ضعيفة. بينما يولد التوليد المعتمد على TMK تغطية عالية لعدة خطوات، إلا أن جودتها أقل في مجال التأسيس.
توفر هذه النتائج دليلاً على أن الغنى الإجرائي والعبارات الطبيعية لا يضمنان التأسيس التمثيلي. مما يحفز الحاجة إلى تقييم التمثيل بشكل صريح عند إنشاء مجموعات بيانات التقييم في أنظمة التعلم المدعومة بالذكاء الاصطناعي.
ثورة جديدة في تقييم ذكاء الآلات: استراتيجيات مبتكرة لقياس التفكير الإجرائي!
تتناول هذه الدراسة استراتيجيات مبتكرة لتوليد بيانات تقييمية تفيد في تحسين أنظمة التعلم المدعومة بالذكاء الاصطناعي. التركيز على جودة الأسئلة والردود يُظهر تقدمًا ملحوظًا في التفكير الإجرائي!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
