في عالم الذكاء الاصطناعي المتطور، يكمن التحدي في الحفاظ على سلامة المعلومات المُعتمدة. حديثاً، تم تعريف نوع جديد من الهجمات يُعرف بـ"Oracle Poisoning"، حيث يقوم المهاجمون بتحريف قاعدة بيانات المعرفة المُنظَّمة التي تستند إليها أنظمة الذكاء الاصطناعي لتحليل البيانات واتخاذ القرارات.
هجمات Oracle Poisoning تختلف تماماً عن هجمات حقن الأوامر (prompt injection)، حيث تركز على تشويه البيانات التي يعتمد عليها الذكاء الاصطناعي في استنتاجاته بدلاً من تعديل التعليمات المباشرة. وقد أظهرت الدراسات ستة سيناريوهات هجوم ضد قاعدة معرفة تتكون من 42 مليون عقدة، مما يعد أول إثبات تجريبي لهجوم من هذا النوع على أنظمة الذكاء الاصطناعي على نطاق واسع.
استخدام نموذج أدوات البرمجة (SDK) في تسعة نماذج من ثلاثة مزودين يعطي مؤشرات مذهلة؛ حيث أثبتت النماذج أنها تقبل البيانات المُحرفة بنسبة 100% تحت مستوى متوسط من مهارة المهاجمين. من 270 تجربة منفذة، قبلت 269 محاولة المزاعم الأمنية المُزيفة بناءً على استفسارات موجهة.
لكن الأمور تتغير تحت الظروف المفتوحة، حيث تنخفض نسبة الثقة إلى ما بين 3-55%. تشير هذه النتائج إلى أهمية كيفية صياغة المطالبات (prompt framing)، وتكشف عن نقاط تحول هامة تعتمد على مهارات المهاجم.
إذا كان هناك أمل في الدفاع ضد مثل هذه الهجمات، فقد تم تقييم خمسة أساليب دفاعية، حيث أُثبت أن الوصول المقيد بنمط القراءة يلغي طريقة التعديل المباشر. ومع ذلك، فإن الأساليب المتبقية تتفاوت في فعاليتها وتعتمد على نموذج الذكاء الاصطناعي المستخدم.
نتيجةً لذلك، يمكن أن يمتد تأثير هجوم Oracle Poisoning ليشمل نظام المعرفة العالمي، مما يستدعي التحلي بحذر أكبر للحفاظ على سلامة معلومات الذكاء الاصطناعي.
ما رأيكم في هذا التطور الخطير؟ شاركونا في التعليقات.
اقتحام المعرفة: كيف يمكن استغلال هجمات Oracle Poisoning لتحريف نتائج الذكاء الاصطناعي؟
تُعرّف هجمات Oracle Poisoning بأنها طريقة جديدة يستغل بها المهاجم المعرفة المُنظَّمة، مما يؤدي إلى استنتاجات خاطئة. تكشف الأبحاث الأخيرة عن فعالية هذه الهجمات في التأثير على نماذج الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
