في عالم يزداد فيه استخدام الرفاق الذكيين مثل Replika و Character.AI، تتزايد المخاوف المتعلقة بالسلامة في التفاعلات بين البشر والذكاء الاصطناعي بشكل ملحوظ. ولتaddress هذه المخاوف، أُجريت دراسة حديثة كشفت عن AICompanionBench، وهو أول معيار بيانات مفتوح متاح لدراسة سلامة المحادثات بين البشر والذكاء الاصطناعي.

تحتوي مجموعة البيانات هذه على 2,123 محادثة حقيقية من Replika تم جمعها من Reddit، وقُمعت من خلال تعاون بشري مع الذكاء الاصطناعي، مصنفة عبر تسعة فئات من المخاطر: السلوك الجنسي، السلوك المعادي للاجتماعية، العدوان البدني، العدوان اللفظي، تعاطي المخدرات، الإيذاء الذاتي والانتحار، السيطرة، التلاعب، وعدم الأذى.

باستخدام هذه مجموعة البيانات كمقياس، تم تقييم 20 نموذجًا من نماذج اللغات الضخمة (Large Language Models) سواء المفتوحة أو المغلقة المصدر تحت إطار LLM-as-judge لاكتشاف التفاعلات غير الآمنة. أظهرت النتائج تباينًا كبيرًا في أداء النماذج، حيث حققت النماذج الأقوى دقة عالية في التعرف على المحتوى الضار الصريح ولكن ظلت تعاني في تصنيف الفئات الأكثر تعقيدًا مثل التلاعب، بالإضافة إلى المحادثات السليمة التي تم التعرف عليها بالخطأ كمحتوى ضار.

تشير نتائجنا إلى أن نماذج اللغات الضخمة الحالية يمكن أن تكشف بشكل فعال عن المحتوى الضار الصريح، لكنها تواجه قيودًا في التعرف على التفاعلات غير الآمنة الضمنية. يعد هذا العمل خطوة مهمة نحو تطوير بنية تحتية أفضل لمراقبة أنظمة الرفاق الذكيين باستخدام نماذج اللغات الضخمة.

للمزيد من التفاصيل، تُمكنكم زيارة مجموعة البيانات المتاحة على رابط مجموعة البيانات. ما رأيكم في هذه التطورات؟ شاركونا آرائكم في التعليقات!