随着人工智能(AI)成为日常学习的一部分,许多课程主要教授学生如何将其作为生产力工具使用:如何提示、搜索、总结、撰写代码并更有效地使用工具。然而,我们认为人工智能教育也需要一个环境,让学生学习测试人工智能,并理解他们在判断机器生成知识中的角色。为此,我们引入了一种基于课程的实践,通过建立基准来教授人工智能,利用深度研究系统作为人工智能时代知识工作的具体示例。

يتحول الطلاب إلى [بناء](/tag/بناء) أسئلة ذات مستوى [خبراء](/tag/خبراء) يمكن [التحقق](/tag/التحقق) منها، ويقومون بمراجعة تصاميم بعضهم البعض بحثاً عن [الغموض](/tag/الغموض) والاختصارات، وتقييم [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) بناءً على المهام الناتجة. تمنح هذه الأنشطة الطلاب exposure مباشر لأداة قوية، بينما تطلب منهم تحديد ما يتطلبه الأمر للحصول على إجابة موثوقة. يتكون المعيار الناتج، QuestBench، من 256 سؤالاً [عبر](/tag/عبر) 14 مجالاً من مجالات [العلوم](/tag/العلوم) الإنسانية والاجتماعية.

تظهر [التقييمات](/tag/التقييمات) على [QuestBench](/tag/questbench) أن المهام المصممة من قبل الطلاب تكشف عن [فشل](/tag/فشل) مخفي في الأنظمة البحثية العميقة الحالية: حيث كانت نسبة النجاح على مستوى السؤال في المتوسط 16.85%، بينما النظام الأفضل أداءً، [GPT-5](/tag/gpt-5).5، حقق نسبة [نجاح](/tag/نجاح) 57.58%. هذه الفشل ليست فقط مواضيع للتعلم، بل تُظهر كيف يمكن للإجابات الموثوقة والقائمة على مصادر معينة أن تفوت الاستفسار الصحيح أو المصدر أو المصطلح أو [معايير](/tag/معايير) [الأدلة](/tag/الأدلة). تعكس آراؤهم من خمسة من المساهمين الطلاب أن [بناء المعايير](/tag/[بناء](/tag/بناء)-[المعايير](/tag/المعايير)) يمكن أن يساعد الطلاب على [رؤية](/tag/رؤية) [المعرفة](/tag/المعرفة) المهنية ليس فقط كمحتوى يمكن للذكاء الاصطناعي استرجاعه، ولكن كأساس للحكم على مخرجات [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).

نقدم [QuestBench](/tag/questbench) كأداة معيارية وكبيئة قابلة للاستخدام في الفصول الدراسية، لمناقشة مسألة تعليمية أكبر: كيف يمكن للطلاب أن يظلوا ممثلين مسؤولين عن [المعرفة](/tag/المعرفة) مع دخول [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) إلى [التعلم](/tag/التعلم) والعمل المهني. يمكن الوصول إلى قاعدة [البيانات](/tag/البيانات) [عبر](/tag/عبر) الرابط: https://huggingface.co/datasets/PKUAIWeb/[QuestBench](/tag/questbench)/tree/main.