RouteGuard: الحارس الذكي للكشف عن تسميم المهارات في نماذج اللغات الضخمة!

في زمن تتنافس فيه تقنيات الذكاء الاصطناعي بشكل متسارع، برزت مشكلة جديدة تُعرف بتسميم المهارات (Skill Poisoning) التي تهدد أداء نماذج اللغات الضخمة (LLMs). وكما يُظهر البحث الجديد الذي تم تقديمه، تمثل الهجمات الأخيرة خطراً ملحوظاً تتوجَّه فيه التعليمات الخبيثة بصيغة مهارات حقيقية، مما يُصعب اكتشافها باستخدام الطرق التقليدية.

تنشأ هذه الظاهرة عندما يُخفي المهاجمون تعليمات ضارة داخل مهارات ذات دلالة وتفاعل، مما يسمح لهم بالتحكم في استجابة النظام بشكل خفي. يؤكد البحث على الحاجة إلى تقنيات قوية للكشف عن هذا النوع من الهجمات، حيث تُظهر النتائج أن تسميم المهارات يؤدي إلى تغيير في الانتباه الداخلي، حيث ينتقل انتباه النظام من سياق موثوق إلى مهارات ضارة.

من هنا، ظهرت تقنية RouteGuard، وهي كاشف حديث يعتمد على بنية مشيّدة بشكل ثابت، يُدمج بين الانتباه المشروط بالاستجابة وضبط الحالة الخفية عبر دمج موثوق متأخر. لقد أثبتت نتائج RouteGuard قوتها في التعامل مع المهارات السامة، حيث تحقق دقة فريدة تصل إلى 0.8834 في Metrices F1، وتتجاوز الـ 90% من الهجمات التي تم تفويتها بواسطة الفلترة النصية التقليدية.

إن الحلول مثل RouteGuard تُظهر أهمية التركيز على الإشارات الداخلية بدلاً من الفلترة النصية فقط، مما يمكّن وكيل الذكاء الاصطناعي من التصدي بطريقة أكثر فاعلية لهجمات تسميم المهارات.

RouteGuard: الحارس الذكي للكشف عن تسميم المهارات في نماذج اللغات الضخمة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل تتعذر عليك الحصول على جهاز Mac Mini؟ تعرف على السبب وراء التأخير في التوريد!

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!