في عالم أصبحت فيه المعلومات الشخصية عرضة لمخاطر متزايدة، يكشف بحث حديث النقاب عن هجوم مطور يُعرف بـ Trojan Hippo. يعتمد هذا الهجوم على استغلال أنظمة الذاكرة في نماذج اللغات الضخمة (LLMs) لتمكين الوكلاء من تخزين المعلومات الحساسة عبر جلسات متعددة. بينما تعتمد هذه الأنظمة في تحسين تجربتنا، فإنها أيضًا تفتح بابًا جديدًا للتهديدات الأمنية.
يعمل Trojan Hippo كنموذج معقد لهجمات الذاكرة الدائمة، حيث يقوم المهاجم بزراعة حمولة خبيثة في ذاكرة الوكيل طويلة الأمد من خلال اتصال واحد بأداة غير موثوقة، مثل بريد إلكتروني مصمم بعناية. يتم تفعيل هذه الحمولة فقط عندما يناقش المستخدم مواضيع حساسة تتعلق بالمالية أو الصحة أو الهوية، مما يؤدي إلى تسريب بيانات شخصية عالية القيمة إلى المهاجم.
على الرغم من أن هناك بعض الأمثلة القصصية على مثل هذه الهجمات ضد الأنظمة المُستخدمة، إلا أن هذا العمل البحثي يقدم تقييمًا منهجيًا لها عبر تصاميم متنوعة لذاكرة الوكلاء والدفاعات المتاحة. ولتقييم فعالية الدفاعات، تم تقديم إطار تقييم ديناميكي يضم مكونين رئيسيين:
1. Benchmark يعتمد على OpenEvolve يقوم بإجراء اختبارات ضغط للدفاعات وخلفيات الذاكرة ضد هجمات مستمرة ومجددة.
2. التحليل المبدئي للأمان والفائدة للأنظمة الذاكرة الدائمة، مما يتيح تفكير منطقي في نشر الدفاعات عبر مختلف الاستخدامات.
تم تطبيق هذا البحث على مساعد بريد إلكتروني عبر أربعة خلفيات ذاكرية، وحقق Trojan Hippo معدلات نجاح تتراوح بين 85-100% ضد نماذج الذكاء الاصطناعي الحديثة من OpenAI وGoogle. حتى بعد 100 جلسة غير ضارة، تبقى الذاكرة المزروعة قادرة على التفعيل.
تم تقييم أربع دفاعات مستندة على مبادئ الأمان الأساسية ووجد أنها تقلل بشكل كبير من معدلات نجاح الهجمات (التي وصلت إلى 0-5%)، ولكن مع تكاليف تتعلق بالفائدة تختلف باختلاف متطلبات المهام. نظرًا لهذا التوازن الكبير بين الأمان والفائدة، يبقى التحدي الفعلي للاستخدام الواقعي للدفاعات مفتوحًا، مما يتطلب تطوير أدوات فعالة لمواجهته.
الهجوم المفاجئ: استغلال الذاكرة في الـLLM لسرقة البيانات الحساسة
يكشف البحث الجديد عن هجوم Trojan Hippo الذي يستغل الذاكرة الدائمة في نماذج الذكاء الاصطناعي لسرقة المعلومات الشخصية القيمة. يسلط الضوء على أهمية تطوير أدوات دفاعية فعالة لحماية البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
