في عصر [تطبيقات الذكاء الاصطناعي](/tag/[تطبيقات](/tag/تطبيقات)-الذكاء-الاصطناعي) المتقدمة، تبرز [تقنية](/tag/تقنية) Graph-Regularized Sparse [Autoencoders](/tag/autoencoders) ([GSAE](/tag/gsae)) كنموذج ثوري لتحسين [أمان](/tag/أمان) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms)). تعتمد هذه [التقنية](/tag/التقنية) على فكرة تجمع أنماط نشاط الخلايا العصبية، مما يجعلها قادرة على تحديد وتوجيه ردود الأفعال الأكثر أمانًا للمستخدمين في مواقف مختلفة.
لكن ما هو [GSAE](/tag/gsae)؟ ببساطة، فإن [GSAE](/tag/gsae) يشتمل على [تحسينات](/tag/تحسينات) هامة على Sparse [Autoencoders](/tag/autoencoders) ([SAEs](/tag/saes)) التقليدية التي تستخدم لاستخراج اتجاهات النشاط لتوجيه النموذج أثناء [الاستدلال](/tag/الاستدلال). حيث أن [النماذج](/tag/النماذج) التقليدية تعامل السمات الخفية (latent features) ككيانات مستقلة، وهذا قد لا يتناسب بشكل جيد مع السلوكيات الآمنة عالية المستوى.
من خلال [تنفيذ](/tag/تنفيذ) GSAE، يتم [تعلم](/tag/تعلم) اتجاهات [التحكم](/tag/التحكم) في [الأمان](/tag/الأمان) من خلال توزيع [آليات](/tag/آليات) النشاط على [رسم خرائط](/tag/رسم-[خرائط](/tag/خرائط)) [تفاعل](/tag/تفاعل) الخلايا العصبية، وهذا يعزز القدرة على [رفض الطلبات](/tag/[رفض](/tag/رفض)-الطلبات) الضارة في الوقت الحقيقي. وقد أظهرت [التجارب](/tag/التجارب) أن [GSAE](/tag/gsae) تتفوق في [تحقيق](/tag/تحقيق) [رفض](/tag/رفض) انتقائي أكثر فعالية [عبر](/tag/عبر) [منصات](/tag/منصات) اختبار متعددة مثل JailbreakBench وHarmBench، حيث تمكنت من [تحسين](/tag/تحسين) معدلات [رفض الطلبات](/tag/[رفض](/tag/رفض)-الطلبات) الضارة بنسبة ملحوظة أثناء التعامل مع الطلبات غير الضارة بكفاءة.
عند استخدام [GSAE](/tag/gsae) في [نموذج Llama](/tag/[نموذج](/tag/نموذج)-llama)-3-8B، حققت [التقنية](/tag/التقنية) تحسينًا قدره 20.1 نقطة على JailbreakBench و16.8 نقطة على HarmBench، مما يسجل إنجازًا بارزًا في مجال [الأمان](/tag/الأمان) الذكي.
تستمر [GSAE](/tag/gsae) في outperforming على الأساليب التقليدية، مما يعكس قدرتها على الحفاظ على [أداء المهام](/tag/[أداء](/tag/أداء)-المهام) المألوفة. قد تتجلى هذه النتائج بشكل أكبر عندما يتم مواجهتها بهجمات من نوع black-box وgray-box، مما يجعلها [أداة](/tag/أداة) مثيرة للاهتمام لرواد [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
لذا، مع تقدم [البحث](/tag/البحث) في هذا المجال، يبقى السؤال: كيف يمكن أن تؤثر [GSAE](/tag/gsae) في [مستقبل](/tag/مستقبل) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
تحكم آمن في نماذج الذكاء الاصطناعي: استكشاف تقنية Graph-Regularized Sparse Autoencoders
تقدم تقنية Graph-Regularized Sparse Autoencoders (GSAE) طريقة جديدة لتعزيز أمان نماذج الذكاء الاصطناعي، مما يساعد في تحسين رفض المطالبات الضارة مع الحفاظ على الأداء العام. تعتمد هذه التقنية على توزيع هيكلي لتعزيز سلوك الأمان في نماذج اللغات الضخمة (LLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
