في عالم متسارع نحو الابتكار، يلعب الذكاء الاصطناعي دورًا محوريًا في العديد من المجالات العلمية. ومع ذلك، فإن استخدام نماذج اللغات الضخمة (Large Language Models) يتضمن تحديات تتعلق بأخلاقيات البحث وسلامته. هنا يأتي دور SciIntBench، وهو معيار مبتكر يتألف من 810 طلبات موزعة على عشرة فئات من معايير السلوك البحثي المسؤول (Responsible Conduct of Research - RCR) عبر ثلاثة مجالات علمية.

يتمثل الابتكار في هذا المعيار في أنه يتناول سيناريوهات مختلفة: يتضمن كل طلب ثلاث نسخ، وهي الصورة العلنية العدائية، والصورة الخفية العدائية، والصورة غير الضارة. وهذا يمكن الباحثين من قياس مدى استجابة النماذج للانتهاكات والتصرفات الصحيحة.

قمنا بتقييم 16 نموذجًا تجاريًا ومفتوح الوزن من ستة مزودين، حيث تم إنتاج حوالي 12،960 استجابة. تظهر النتائج أن توافق النماذج مع معايير النزاهة العلمية حساس جدًا للإطار المقدم. فقد كانت النماذج أكثر ميلًا لرفض السلوكيات غير الأخلاقية عندما يتم التعبير عنها بشكل واضح، في حين كانت النتائج أقل دقة عندما تم تقديم المخالفات بشكل تدريجي، خاصة تلك التي تتضمن الضغط للحصول على نتائج سريعة.

تظهر النتائج أيضًا اختلافات واضحة حسب فئات RCR، حيث كان هناك حدود أضعف في مواضيع مثل الشفافية، والانتحال، والتزوير. يبدو أن الحاجة الملحة لتطوير مقاييس فاعلة وموثوقة لأخلاقيات البحث العلمي تزداد يومًا بعد يوم، والمزيد من الأبحاث في هذا المجال قد يساعد في تحسين سقف النزاهة العلمية.

إن فهم التحولات في استجابة النماذج لهذه السيناريوهات يمكن أن يُعد خطوة هامة نحو ضمان استخدام التكنولوجيا بشكل أخلاقي وموثوق. هل تعتقد أن تطوير مثل هذه المعايير أمر ضروري في عصر الذكاء الاصطناعي الحالي؟ شاركونا آرائكم في التعليقات!