في عالم الذكاء الاصطناعي المتطور، اكتشف الباحثون ظاهرة مثيرة للقلق تُعرف بفشل الأمان الهش (Brittle Safety) في نماذج اللغة المتوافقة. تشير الأبحاث من خلال التجارب المعملية إلى أن هذه النماذج، رغم التقييمات الجيدة بمؤشرات الأمان، قد تتعامل مع حالات جديدة بطريقة قد تكون غير مأمونة.
يعتمد هذا الفشل على فكرة أن النماذج تميل إلى الالتزام بقواعد صارمة حتى عند تغير الظروف، مما يطرح تساؤلات حول مدى جاهزيتها للتطبيق الفعلي.
استخدم البحث الجديد تقنيات تقييم مخصصة تُعرف باسم تقييم تحول السياق (context-flip evaluation)، حيث تم اختبار 12 نموذجًا على مقياس أمان يسمى PacifAIst، بالإضافة إلى مراقبة عواقب بعض الإجراءات التي قد تبدو آمنة.
أظهرت النتائج أن جميع النماذج المعنية تمتلك فجوة كبيرة بين الأمان والعقل العام، حيث بلغت المتوسطات 17.4 نقطة مئوية. والأسوأ من ذلك، أن معدلات الفشل تباينت بشكل كبير بين النماذج، حتى لو كانت دقتها تتجاوز 90%.
تناولت التحليلات أيضًا أن الفشل كان ناتجًا عن تجاوز السياسات بدلاً من عدم الفهم، حيث استمرت النماذج في اتباع آليات معينة على الرغم من وعيها بتغيير السياق.
في الختام، يأمل الباحثون أنه من خلال تعديل الهياكل المعمارية لتكون أكثر وعياً بالحالات، يمكن تحسين الأمان والكفاءة في المستقبل. سيتم إصدار البروتوكولات والمعايير المستخدمة في هذه الأبحاث قريباً للمهتمين.
هل الأمان في نماذج اللغة موثوق؟ اكتشاف فشل الأمان الهش في نماذج التعلم الآلي!
تظهر الأبحاث الجديدة أن نماذج اللغة قد تعاني من فشل كبير في عناصر الأمان الهش، ما يدعو إلى التفكير في كيفية جاهزيتها للتطبيق. اكتشفوا كيف يمكن لنماذج التعلم الآلي أن تتجاهل السياقات الجديدة وتترك آثاراً خطيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
