في عالم متّصل مليء بالتحديات الأمنية، أصبح تحليل الأمان الحيوي لنماذج الذكاء الاصطناعي (AI) أمراً ضرورياً. أظهرت الدراسات الأخيرة أن تلك النماذج لم تتمكن من التفريق بشكل قاطع بين المخرجات الضارة والآمنة. بدلاً من ذلك، تم اكتشاف أنه حتى عندما ترفض النماذج إنتاج استجابات معينة، فإنها قد تفعل ذلك لأسباب غير متعلقة فعلياً بالخطر.

تضمنت التجارب خمسة نماذج معمارية مختلفة، حيث كانت النتائج مثيرة للاهتمام. نموذج Gemma 2 2B-IT، على سبيل المثال، لم يرفض أي استجابات خلال 75 اختباراً، مما يظهر تردده في التعامل مع أسئلة متعلقة بالخطر. بينما نموذج Gemma 4 E2B-IT رفض الاستجابات بشكل أكبر عند استخدام تنسيق المحادثة، مما يدلل على تأثير صياغة الطلبات على نتائج الرفض.

نموذجان آخران، Qwen 2.5 1.5B وPhi-3-mini، أظهرا سلوكاً مفرطاً في الرفض، حيث اعتبرا 83-87% من المعلومات البيولوجية العادية كخطر. وفي المقابل، كان نموذج Llama 3.2 1B الأكثر اتزاناً، حيث حقق تبايناً معنوياً في استجاباته.

لتعميق فهمنا لهذه السلوكيات، تم اختبار نماذج باستخدام مركبات غير سامة ولكنها مدرجة ضمن جدول المواد المحظورة. وجدت النتائج أن النماذج رفضت هذه المركبات بمعدلات تفوق ما تم اعتباره بيولوجياً خطراً، مما يشير إلى أن الرفض قد يتأثر بشكل كبير بقوانين معينة واعتبارات ثقافية.

أدخل الباحثون نقطة مقاييس جديدة لتسجيل مدى تباين الاستجابة السطحية للنموذج مع تفعيلات خاصية الأوتوإنكودر الرفيعة، مما يتيح فهم أعمق لمواضع الفشل المحتملة للنماذج. وبهذا البحث، تظهر الأدلة الأولية أن التحليل على مستوى التفعيل قد يكشف عن عيوب غير مرئية في التقييم السلوكي، مع التنبيه إلى أن هناك اختلافات ملحوظة عبر الهياكل المعمارية المختلفة.

هل برأيك سيساهم هذا البحث في تطوير أمان أكبر لنماذج الذكاء الاصطناعي؟ شاركنا آرائك في التعليقات!