في عالم الذكاء الاصطناعي، تواجه نماذج اللغة الكبيرة (LLMs) تحديًا كبيرًا يعرف باسم انهيار الأمان الداخلي (Internal Safety Collapse - ISC). يتجلى هذا التحدي عندما تقوم هذه النماذج بأداء مهام احترافية مشروعة تتطلب في بعض الأحيان محتوى ضارًا، مما يؤدي إلى معدلات فشل تتجاوز 95%.
لقد أثبتت الدفاعات الحالية التي تعمل على مستوى المدخلات فشلها 100% في التصدي لـ ISC، بينما لا تكون الدفاعات القياسية لنظام التعليمات فعالة بالقدر الكافي. لمواجهة هذه المشكلة، تم اقتراح تقنية جديدة تدعى SafeRedirect، التي تقدم طريقة ثورية في التعامل مع هذا التحدي.
تقوم SafeRedirect بتجاوز مشكلة انهيار الأمان عن طريق إعادة توجيه دافع إتمام المهام بدلاً من كبحه. تتيح هذه التقنية تفويضًا صريحًا بفشل المهمة، وتحدد مجموعة من النتائج الثابتة، كما instructs النموذج للحفاظ على العناصر الضارة دون حل.
أظهرت الدراسات التي أجريت على سبعة نماذج متقدمة عبر ثلاثة أنواع من المهام المتعلقة بالذكاء الاصطناعي وتعلم الآلة، أن SafeRedirect تقلل من معدلات توليد المحتوى الضار بشكل ملحوظ من 71.2% إلى 8.0%، بالمقارنة مع 55.0% للدفاعات الأخرى.
تؤكد نتائج تقييم القدرة على التصدي للهجمات الأخرى أن هذه التقنية تمثل دفاعًا رائدًا ضد ISC وتقدم أداءً عامًا يضاهي أو يتفوق على الحلول الأخرى. من المتوقع أن ينتشر استخدام هذه التقنية نظرًا لما تقدمه من ضمان لأمان النموذج أثناء أداء مهام معقدة.
للاطلاع على الكود والتفاصيل التقنية، يمكنك زيارة [رابط الكود](https://github.com/fzjcdt/SafeRedirect).
ثورة الأمان: كيف تتغلب تقنية SafeRedirect على انهيار الأمان الداخلي في نماذج الذكاء الاصطناعي
تقدم تقنية SafeRedirect حلاً مبتكرًا لمشكلة انهيار الأمان الداخلي في نماذج اللغة الكبيرة (LLMs)، حيث تقلل من معدلات توليد المحتوى الضار بشكل ملحوظ. بهذه الطريقة، يمكن للنماذج إتمام المهام بشكل آمن دون المخاطرة بإنتاج محتوى ضار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
