في بيئة الصحة النفسية، حيث تعتبر الاعتبارات الأمنية العالية أمراً حيوياً، يتعين على الباحثين الاعتماد على تقييمات دقيقة وموثوقة من الخبراء. ومع ذلك، فقد أظهرت دراسة جديدة أن الاعتماد على التغذية الراجعة البشرية (LHF) قد يتسم بتحديات كبيرة. قام ثلاثة أطباء نفسيين معتمدين بتقييم ردود تستند إلى نماذج لغوية ضخمة (LLMs) باستخدام معايير تقييم مدروسة، لكن النتائج كانت مدهشة - فمستوى الاتفاق بين الخبراء كان ضعيفاً بصفة مستمرة، حيث سجلت القيمة التقديرية (ICC) من 0.087 إلى 0.295، وهي أقل من المعايير المقبولة لتقييم الأمور الهامة.
أظهرت الدراسة أن أكبر قدر من الاختلاف ظهر في القضايا المتعلقة بالسلامة، وخاصة تلك المرتبطة بالانتحار والأذى الذاتي، وهو ما يشير إلى وجود تباينات هيكلية في الآراء بدلاً من اختلافات عشوائية. حيث توصلت المقابلات النوعية مع خبراء إلى استنتاجات تدل على أن الاتفاق البديل لا يقضي فقط على الفلسفات المهنية الجوانية، بل يشير أيضاً إلى أن الخبراء يعتمدون على استراتيجيات مخاطر شمولية بدلاً من تحليل دقيق للعوامل الفردية.
وبذلك، تثير النتائج أسئلة هامة حول كيفية التقييم والتدريب لنظم الذكاء الاصطناعي في السياقات الحساسة. يوصي الباحثون بتغيير أساليب الاعتماد على التوافق في التجميع، إلى طرق تتبنى وتتعلم من تباينات الخبراء، مما يعزز من أمان الذكاء الاصطناعي في المجالات الحيوية.
في ختام المقال، نسأل: كيف يمكن تحسين طرق تقييم نظم الذكاء الاصطناعي لتلبية احتياجات الأمان في الصحة النفسية؟ شاركونا آرائكم وتجاربكم في التعليقات.
تقييم الخبراء وحدود التغذية الراجعة البشرية في اختبار أمان الذكاء الاصطناعي للصحة النفسية
تتعرض نماذج الذكاء الاصطناعي للصحة النفسية لتحديات كبيرة في تقييم أمانها، حيث يظهر اتفاق الخبراء ضعيفاً ومثيراً للجدل. كيف يمكن تحسين طرق تقييم هذه الأنظمة؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
