في زمن تتنافس فيه تقنيات الذكاء الاصطناعي بشكل متسارع، برزت مشكلة جديدة تُعرف بتسميم المهارات (Skill Poisoning) التي تهدد أداء نماذج اللغات الضخمة (LLMs). وكما يُظهر البحث الجديد الذي تم تقديمه، تمثل الهجمات الأخيرة خطراً ملحوظاً تتوجَّه فيه التعليمات الخبيثة بصيغة مهارات حقيقية، مما يُصعب اكتشافها باستخدام الطرق التقليدية.
تنشأ هذه الظاهرة عندما يُخفي المهاجمون تعليمات ضارة داخل مهارات ذات دلالة وتفاعل، مما يسمح لهم بالتحكم في استجابة النظام بشكل خفي. يؤكد البحث على الحاجة إلى تقنيات قوية للكشف عن هذا النوع من الهجمات، حيث تُظهر النتائج أن تسميم المهارات يؤدي إلى تغيير في الانتباه الداخلي، حيث ينتقل انتباه النظام من سياق موثوق إلى مهارات ضارة.
من هنا، ظهرت تقنية RouteGuard، وهي كاشف حديث يعتمد على بنية مشيّدة بشكل ثابت، يُدمج بين الانتباه المشروط بالاستجابة وضبط الحالة الخفية عبر دمج موثوق متأخر. لقد أثبتت نتائج RouteGuard قوتها في التعامل مع المهارات السامة، حيث تحقق دقة فريدة تصل إلى 0.8834 في Metrices F1، وتتجاوز الـ 90% من الهجمات التي تم تفويتها بواسطة الفلترة النصية التقليدية.
إن الحلول مثل RouteGuard تُظهر أهمية التركيز على الإشارات الداخلية بدلاً من الفلترة النصية فقط، مما يمكّن وكيل الذكاء الاصطناعي من التصدي بطريقة أكثر فاعلية لهجمات تسميم المهارات.
RouteGuard: الحارس الذكي للكشف عن تسميم المهارات في نماذج اللغات الضخمة!
تقدم تقنية RouteGuard حلولاً مبتكرة للكشف عن تسميم المهارات في نماذج اللغات الضخمة. تكشف الدراسة الأثر الداخلي لتلك الهجمات وتُظهر فعالية RouteGuard في التصدي لها.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
