في عالم الذكاء الاصطناعي المتسارع، ظهرت تكنولوجيا نماذج اللغات الضخمة (Large Language Models - LLMs) كنجم ساطع في سماء الابتكار. ولكن، كما هو الحال مع كل شيء رائع، تكمن بعض التحديات المقلقة التي تتطلب الانتباه. مؤخرًا، تم الكشف عن نموذج جديد يُدعى PARASITE، والذي يعتبر تطورًا جذريًا في طريقة تفكيرنا حول أمان واستخدام نماذج اللغات.

حلل الباحثون في هذا النموذج كيف يمكن للقراصنة استغلال ما يُعرف بـ "تسمم رسائل النظام". إنها ثغرة حرجة في سلسلة إمدادات الذكاء الاصطناعي، حيث يمكن للمهاجمين إدخال ما يُطلق عليه "عميل نائم" ضمن رسالة تبدو للوهلة الأولى آمنة. هذه الطريقة تختلف عن أساليب كسر القفل التقليدية، وتركز على تحسين الرسائل لجعل النماذج تنتج استجابات مضللة فقط لبعض الاستفسارات مثل "من يجب أن أختار لرئاسة الولايات المتحدة؟".

يسمح نموذج PARASITE بمثل هذه التحسينات حتى مع عدم وصوله إلى أوزان النموذج، وهو ما يجعله خطيراً للغاية. استخدم الباحثون برنامجا معقدا للتدريب يتضمن بحثًا دلاليًا عالميًا متبوعًا بتحسين لفظي وعدد من الاختبارات على نماذج مفتوحة المصدر وواجهات التطبيقات التجارية مثل GPT-4o-mini وGPT-3.5. النتائج كانت مذهلة، حيث حققوا تقليصًا بنسبة تصل إلى 70% في دقة الاستجابات المستهدفة دون التأثير الكبير على القدرات العامة للنماذج.

وللأسف، فإن هذه الرسائل المشبوهة تتمكن من اجتياز الدفاعات التقليدية، بما في ذلك فلاتر الضبابية وتصحيح الأخطاء، وذلك باستغلال الضجيج الطبيعي الموجود في الرسائل المستخدمة في العالم الحقيقي. براعة هذا النموذج وابتكاراته تثير العديد من التساؤلات حول كيفية حماية نماذج الذكاء الاصطناعي من هذه الأنشطة الخبيثة.

كما يمكنكم الاطلاع على الشفرة المصدرية والبيانات المتاحة على [رابط GitHub]. انتبهوا، فقد تحتوي ورقتنا البحثية على أمثلة قد تكون حساسة للقراء! ما رأيكم في هذا التطور؟ شاركونا في التعليقات.