في عالم متّصل مليء بالتحديات الأمنية، أصبح تحليل الأمان الحيوي لنماذج الذكاء الاصطناعي (AI) أمراً ضرورياً. أظهرت الدراسات الأخيرة أن تلك النماذج لم تتمكن من التفريق بشكل قاطع بين المخرجات الضارة والآمنة. بدلاً من ذلك، تم اكتشاف أنه حتى عندما ترفض النماذج إنتاج استجابات معينة، فإنها قد تفعل ذلك لأسباب غير متعلقة فعلياً بالخطر.
تضمنت التجارب خمسة نماذج معمارية مختلفة، حيث كانت النتائج مثيرة للاهتمام. نموذج Gemma 2 2B-IT، على سبيل المثال، لم يرفض أي استجابات خلال 75 اختباراً، مما يظهر تردده في التعامل مع أسئلة متعلقة بالخطر. بينما نموذج Gemma 4 E2B-IT رفض الاستجابات بشكل أكبر عند استخدام تنسيق المحادثة، مما يدلل على تأثير صياغة الطلبات على نتائج الرفض.
نموذجان آخران، Qwen 2.5 1.5B وPhi-3-mini، أظهرا سلوكاً مفرطاً في الرفض، حيث اعتبرا 83-87% من المعلومات البيولوجية العادية كخطر. وفي المقابل، كان نموذج Llama 3.2 1B الأكثر اتزاناً، حيث حقق تبايناً معنوياً في استجاباته.
لتعميق فهمنا لهذه السلوكيات، تم اختبار نماذج باستخدام مركبات غير سامة ولكنها مدرجة ضمن جدول المواد المحظورة. وجدت النتائج أن النماذج رفضت هذه المركبات بمعدلات تفوق ما تم اعتباره بيولوجياً خطراً، مما يشير إلى أن الرفض قد يتأثر بشكل كبير بقوانين معينة واعتبارات ثقافية.
أدخل الباحثون نقطة مقاييس جديدة لتسجيل مدى تباين الاستجابة السطحية للنموذج مع تفعيلات خاصية الأوتوإنكودر الرفيعة، مما يتيح فهم أعمق لمواضع الفشل المحتملة للنماذج. وبهذا البحث، تظهر الأدلة الأولية أن التحليل على مستوى التفعيل قد يكشف عن عيوب غير مرئية في التقييم السلوكي، مع التنبيه إلى أن هناك اختلافات ملحوظة عبر الهياكل المعمارية المختلفة.
هل برأيك سيساهم هذا البحث في تطوير أمان أكبر لنماذج الذكاء الاصطناعي؟ شاركنا آرائك في التعليقات!
ثورة جديدة في أمان البيانات: كيف تحلل نماذج الذكاء الاصطناعي رفضاتها الآمنة؟
توصلت دراسة مبتكرة إلى أن نماذج الذكاء الاصطناعي لا تميز بشكل راسخ بين المخرجات الآمنة والضارة. تكشف النتائج أن رفضات النماذج غالباً ما تتأثر بالشكل القانوني والثقافي أكثر من كونها استجابة كاملة للخطورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
