في عالم الذكاء الاصطناعي المتسارع، ظهرت تكنولوجيا نماذج اللغات الضخمة (Large Language Models - LLMs) كنجم ساطع في سماء الابتكار. ولكن، كما هو الحال مع كل شيء رائع، تكمن بعض التحديات المقلقة التي تتطلب الانتباه. مؤخرًا، تم الكشف عن نموذج جديد يُدعى PARASITE، والذي يعتبر تطورًا جذريًا في طريقة تفكيرنا حول أمان واستخدام نماذج اللغات.
حلل الباحثون في هذا النموذج كيف يمكن للقراصنة استغلال ما يُعرف بـ "تسمم رسائل النظام". إنها ثغرة حرجة في سلسلة إمدادات الذكاء الاصطناعي، حيث يمكن للمهاجمين إدخال ما يُطلق عليه "عميل نائم" ضمن رسالة تبدو للوهلة الأولى آمنة. هذه الطريقة تختلف عن أساليب كسر القفل التقليدية، وتركز على تحسين الرسائل لجعل النماذج تنتج استجابات مضللة فقط لبعض الاستفسارات مثل "من يجب أن أختار لرئاسة الولايات المتحدة؟".
يسمح نموذج PARASITE بمثل هذه التحسينات حتى مع عدم وصوله إلى أوزان النموذج، وهو ما يجعله خطيراً للغاية. استخدم الباحثون برنامجا معقدا للتدريب يتضمن بحثًا دلاليًا عالميًا متبوعًا بتحسين لفظي وعدد من الاختبارات على نماذج مفتوحة المصدر وواجهات التطبيقات التجارية مثل GPT-4o-mini وGPT-3.5. النتائج كانت مذهلة، حيث حققوا تقليصًا بنسبة تصل إلى 70% في دقة الاستجابات المستهدفة دون التأثير الكبير على القدرات العامة للنماذج.
وللأسف، فإن هذه الرسائل المشبوهة تتمكن من اجتياز الدفاعات التقليدية، بما في ذلك فلاتر الضبابية وتصحيح الأخطاء، وذلك باستغلال الضجيج الطبيعي الموجود في الرسائل المستخدمة في العالم الحقيقي. براعة هذا النموذج وابتكاراته تثير العديد من التساؤلات حول كيفية حماية نماذج الذكاء الاصطناعي من هذه الأنشطة الخبيثة.
كما يمكنكم الاطلاع على الشفرة المصدرية والبيانات المتاحة على [رابط GitHub]. انتبهوا، فقد تحتوي ورقتنا البحثية على أمثلة قد تكون حساسة للقراء! ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
اكتشاف ثغرة خطيرة في نماذج الذكاء الاصطناعي: كيف يمكن استغلال رسائل النظام؟
تقدّم البحوث الأخيرة نموذج PARASITE، الذي يكشف عن ثغرة في نماذج اللغات الضخمة (LLMs) تتيح استغلال رسائل النظام لإنتاج استجابات مضللة. هذا التطور يمزج بين تحسين الذكاء الاصطناعي وحماية البيانات في عالم متزايد التعقيد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
