في عالم الذكاء الاصطناعي، يشكل تحقيق الأمان تحدياً كبيراً، حيث تواجه نماذج اللغات الضخمة (Large Language Models) نوعين من الإخفاقات: الأول هو "الفتح" أو jailbreak عندما تقدم إجابات غير مناسبة على استفسارات ضارة، والثاني هو "الرفض المفرط" (over-refusal) حيث ترفض هذه النماذج الإجابة على استفسارات غير ضارة.
قدم الباحثون حلاً مبتكراً يعرف بـ LLM-VA، الذي يساعد على حل هذه المعضلة بشكل فعّال. من المعروف أن معظم طرق التوجيه الحالية تعدل مقدار متجهات الإجابات، مما يؤدي إلى تعارض أساسي - خفض حالات الفتح يزيد من حالات الرفض المفرط والعكس صحيح.
تعتمد LLM-VA على تقنيات تحديث الأوزان بطريقة مغلقة، مما يجعل استعداد النموذج للإجابة مرتبطاً بتقييمه لمدى سلامة المدخلات بشكل سببي. هذا الابتكار لا يتطلب إعادة ضبط معمارية النموذج أو تعديلات في إعداداته، مما يجعله حلاً سهلاً وفعّالاً.
تم استخدام نموذج دعم المتجهات (SVMs) لتحديد المتجهات في كل طبقة، واختيار الطبقات ذات الصلة بالأمان، بالإضافة إلى المواءمة المستمرة للمتجهات من خلال تعديلات الوزن بأقل معيار. أظهرت التجارب على 12 نموذجاً للذكاء الاصطناعي أن LLM-VA تحقق تحسناً بنسبة 11.45% في مؤشر F1 مقارنة بأفضل نموذج بديل، مع الحفاظ على نسبة استخدام تصل إلى 95.92%. كما أنها تتكيف تلقائياً مع انحياز الأمان لكل نموذج بدون الحاجة إلى التعديل اليدوي.
للمزيد من المعلومات والتفاصيل الفنية، يمكنك زيارة موقعهم للحصول على الكود والنماذج المستخدمة: https://hotbento.github.io/LLM-VA-Web/.
ما رأيكم في هذا الابتكار الثوري؟ شاركونا آراءكم في التعليقات.
تحقيق التوازن المثالي: ابتكار LLM-VA للتغلب على تحديات الذكاء الاصطناعي!
تقدم الدراسة الجديدة LLM-VA حلاً مبتكراً لتحديات الذكاء الاصطناعي المتعلقة بالاستجابات الضارة والرفض المفرط. هذا الابتكار يعد بتوازن مثالي بين الأمان والكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
