في عالم يتطور بسرعة من مخرجات الذكاء الاصطناعي، تزداد الحاجة إلى نماذج حراسة سلامة فعالة لضمان استخدام آمن في التطبيقات الحساسة. تتكون هذه النماذج من مجموعة متنوعة من التقنيات المصممة لإنشاء محتوى آمن وموثوق. في دراسة حديثة، تم تقييم 14 نموذجًا حراسة مفتوح المصدر بناءً على معيار مدروس يتضمن 79,331 عينة موزعة على 8 فئات أمان وفقًا لإطار عمل المخاطر من المعهد الوطني للمعايير والتقنية (NIST).

تضمنت البيانات المستخدمة في التقييم أربعة مجموعات بيانات متنوعة (HarmBench، StrongREJECT، RealToxicityPrompts، وBeaverTails)، وتم تصفيتها لتركيز الجهود على المحتوى المتعلق بالسلامة مثل العنف، خطاب الكراهية، التحرش، المحتوى الجنسي، الانتحار/الأذى الذاتي، الشتائم، التهديدات، والمعلومات الصحية المغلوطة.

تظهر النتائج أن معيار الاسترجاع (Recall) هو الأكثر أهمية في التطبيقات المتعلقة بالسلامة، حيث يعتبر فقدان المحتوى الضار أخطر من الحصول على إشعارات زائفة. وقد أسفر التقييم عن نتائج غير متوقعة، حيث حقق نموذج Qwen Guard الذي يحتوي على 4 مليارات باراميتر أعلى نسبة استرجاع بلغت 83.97%، بينما أظهرت النماذج الأكبر مثل Llama Guard (12 مليار باراميتر) و GPT-OSS Safeguard (20 مليار باراميتر) سلوكًا محافظًا، حيث افتقدت حتى 75% من المحتوى غير الآمن.

تم إثبات أن حجم النموذج لا يرتبط بأداء اكتشاف السلامة، حيث تفوقت نماذج الحراسة العامة على النماذج المتخصصة بحماية أفضل. تقدم هذه النتائج إرشادات عملية لاختيار نماذج حراسة السلامة في التطبيقات الإنتاجية.

في الوقت الذي يعتمد فيه الكثيرون على الذكاء الاصطناعي في مجالات شتى، يبقى السؤال: ما هي النماذج التي تعتمدونها لتحقيق الأمان؟ شاركونا آرائكم في التعليقات.