في عالم الذكاء الاصطناعي المتطور، يواجه المطورون تحديات جديدة تتمثل في تأمين نماذج اللغات الضخمة (Large Language Models) من التهديدات المتنوعة. ويعتمد أحد التهديدات البارزة على هجمات التسميم المستهدف، حيث يمكن للمهاجمين إدخال مجموعة صغيرة من أمثلة الأوامر والاستجابات المصممة خصيصًا لإدخال كيانات معينة، مثل دول معينة، في مخرجات النموذج عن مهام معينة، بينما لا تتأثر النتائج في المهام الأخرى.

في هذا السياق، جاء معيار PoisonForge ليكون ثورة في تقييم هذه الهجمات. يتضمن هذا المعيار أربعة أبعاد رئيسية: نوع التحيز، وضع التسميم، عدد الظهورات، وطول المخرجات المستهدفة. جرى تقييم 12 نموذجًا مفتوح الوزن، تتراوح أحجامها من 2 مليار إلى 32 مليار من المعلمات، عبر خمس عائلات تعكس سيناريوهات العمل الواقعية باستخدام ميزانية تلوث محددة قدرها 1%.

والنتيجة كانت مقلقة؛ حيث تجاوز 11 من أصل 12 نموذجًا معدل نجاح الهجوم بنسبة 70% في أكثر تكويناتها ضعفًا بعد إدخال 10 أمثلة ملوثة من بين 1000 مثال تم استخدامها في التعديل. ورغم ذلك، ظل التسرب غير المقصود إلى المهام غير المستهدفة أقل من 0.5%، وأثبتت النماذج أدائها الجيد في معايير القياس المعتادة.

تحليل النتائج أظهر أن الظهور المتكرر للكيان يزيد من معدل النجاح في الهجوم، وأن الوضع الأمثل للتسميم يعتمد على الهيكل الدلالي للكيان المستهدف. كما تراجع معدل نجاح الهجوم مع زيادة طول مخرجات المهمة. كما أكدت التحليلات التنبؤية أن اختيارات تصميم التسميم، بدلاً من حجم النموذج، هي العامل الرئيسي وراء نجاح الهجمات، مما يجعل هذه الأنماط قابلة للتعميم لتوقع نجاح الهجمات على مهام جديدة.

للمساعدة في إعادة إنتاج نتائج البحث مقارنةً بالمعايير السابقة، تم إصدار جميع التكوينات، وعمليات التنبيه، وأكواد التحليل. هل ستغير هذه النتائج من الطريقة التي نتعامل بها مع نماذج الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.