في عالم الذكاء الاصطناعي، تُعتبر النماذج اللغوية الضخمة (Large Language Models) من أهم التطورات التكنولوجية التي تمكنت من تحويل الفهم الآلي للغة. ومع ذلك، تتطلب هذه النماذج آليات أمان قوية لضمان استخدامها بشكل مسؤول. وقد قوبل استخدام نماذج Mixture-of-Experts (MoE) بترحيب كبير لزيادة سعة النماذج، لكن حقيقة أمانها ما زالت محل تساؤل.

في دراسة حديثة نشرت في arXiv، تم التسليط الضوء على الهجوم الجديد المعروف باسم RouteHijack، والذي يسعى لاستغلال ثغرات في نماذج MoE. يعتمد هذا الهجوم على فهم كيف يمكن توجيه قرارات التوجيه (routing decisions) لتغيير سلوك النموذج من خلال تحسين المدخلات.

تظهر الأبحاث أن سلوك الأمان الناتج عن هذا النوع من النماذج يتركز في عدد قليل من الخبراء الذين يتمكنون من منح استجابات آمنة. من خلال إجراء عمليات محلية لاستجابات الخبراء، تمكن الباحثون من تحديد الخبراء المعنيين بالأمان والذين يمكن أن يكونوا ضارين. بعد ذلك، يتم بناء ملحقات هجومية تهدف إلى قمع هؤلاء الخبراء الآمنين، وتعزيز الخبراء الضارين، ومنع الرفض المبكر خلال عملية التوليد.

خلال الاختبارات على سبع نماذج MoE، حقق RouteHijack معدل نجاح هجوم يبلغ 69.3%، متفوقًا بمقدار 3.2 مرة على الهجمات السابقة. كما تمكنت تقنية RouteHijack من توليد نتائج جيدة في حالات عدم التوجيه، حيث ارتفعت نسبة النجاح إلى 61.2% في نماذج MoE الشقيقة، مما يكشف عن ثغرات جوهرية في معمارية الخبراء النادرة.

تُظهر هذه النتائج الحاجة الماسة لتعزيز دفاعات أمان نماذج الذكاء الاصطناعي، حيث يُظهر البحث أن الاعتماد على مستوى المخرجات فقط لا يعد كافيًا. إن معرفة هذه الثغرات والسعي نحو تحسين أمان الذكاء الاصطناعي يمكن أن يساعد في حماية هذه الأنظمة المعقدة من استغلالات المحتملين.