في عالم الذكاء الاصطناعي، تكشف دراسة جديدة عن جانب غير متوقع يتعلق بالانحياز في تدخلات الوكالات الاستشارية التعليمية المعتمدة على نماذج اللغة الكبيرة (LLMs). قد يبدو من غير المألوف أن تتسبب هذه الوكالات، التي تفتقر إلى التدريب المخصص للمهام، في توصيات قد تشير إلى ضرورة اتخاذ إجراء بينما تفيد السياسات المثلى بضرورة عدم التدخل.
في تجربة تنطوي على ستة أذرع باستخدام مجموعة بيانات تحليلات التعلم من الجامعة المفتوحة (Open University Learning Analytics Dataset) والتي استندت إلى 800 طالب، تبين أنه في اليوم الخامس والخمسين، حينما أوضح النظام المثالي أن 70.1% من الطلاب لا يحتاجون إلى أي تدخل، أوصى نظام GPT-4o، في غياب التدريب المخصص، بإجراء تدخلات لـ73% من الطلاب، مما يشير إلى معدل إيجابي خاطئ يبلغ 43 نقطة مئوية.
وأوضحت الدراسة أن نماذج الاسترجاع المعززة (RAG) ونماذج استعلام SQL كانت تعمل بنفس القدر من انحراف التقديرات، مما يقود إلى آلاف الاتصالات غير الضرورية مع المستشارين. ولكن، تمكّن التعلم تحت إشراف من القضاء على هذا الانحياز.
بفضل استخدام تقنيات التعلم، مثل نموذج Decision Transformer (DT) ونموذج XGBoost، تم الوصول إلى مستويات دقة وتقريب قريبة جداً من الصفر. وأحرز نموذج DT درجات عالية جداً في تقييمات الدقة مقابل جميع فئات الفعل بأسلوب أداء قوي وأوقات استجابة لا تتعدى 5 ميلي ثانية.
مع ذلك، لم تكن القياسات السابقة كافية لتسليط الضوء على منظور الانحياز في التدخل. كما أظهرت النتائج فجوة في التقييم؛ حيث كانت الخوارزميات تستخدم كمعايير للتقييم أكثر من التركيز على جودة القرار.
باختصار، تبرز هذه الدراسة الحاجة الملحة لتحسين دقة نماذج الذكاء الاصطناعي وضرورة التعليم التخصصي.
القرارات الحاسمة في الذكاء الاصطناعي: كيف يكشف التحليل عن أخطاء مفاجئة!
تشير دراسة جديدة إلى وجود انحياز في تدخلات الذكاء الاصطناعي، مما يؤدي إلى اتخاذ قرارات غير دقيقة في البيئات التعليمية. كشفت النتائج عن معدلات مرتفعة من الفشل في التوصيات، مما يتطلب مراجعة شاملة لتعلم السياسات في نماذج اللغة الكبيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
