في عالم الذكاء الاصطناعي المتنوع، تتيح نماذج العالم (World Models) طاقة هائلة لتحقيق تخطيط طويل المدى من خلال إنشاء وتقييم مسارات متخيلة. ومع ذلك، يُظهر هذا الأسلوب الجديد في اتخاذ القرارات مخاطر أمنية لم تكن موجودة من قبل. في غياب الحذر، قد تتعرض الأنظمة للاختراق من خلال هجمات الأبواب الخلفية التقليدية، التي تهدف عادةً إلى تعديل المميزات المحلية أو التوقعات اللحظية.
لكن، ما يميز نماذج العالم هو قدرتها على استيعاب التأثيرات السطحية بفضل الديناميات المكتسبة وعملية التخطيط، ما يجعل هجوم الأبواب الخلفية أقل فعالية. ومع ذلك، تشير الأبحاث الجديدة إلى وجود ثغرة فريدة تنشأ من بنية التصنيف الطويلة لمراحل التخيّل، حيث يكفي تعطيل تسلسل مسارات حيوية للقرارات للتلاعب بعملية التخطيط.
لتسليط الضوء على هذه الثغرة، تم تقديم إطار عمل يُعرف بـ TRAP، والذي يستهدف تصنيف المسارات المتخيلة. تركيز TRAP يكون على المسارات الحرجة لعملية اتخاذ القرار, ويطبق آليات تنظيم مزدوجة لتحقيق الاستقرار في عملية التحسين. تحت ظروف معينة، يعمل TRAP على تعديل التصنيف النسبي للمسارات المتخيلة، مما يوجه نتائج التخطيط بينما يحافظ على الهيئة الطبيعية للتصنيف على المدخلات النظيفة.
تجارب أظهرت على نموذج DreamerV3 وTD-MPC2 عبر مهام متنوعة، أن TRAP يتسبب في انحرافات سلوكية مستمرة وتدهور ملحوظ في الأداء، مما يبرز الحاجة الملحة لتقييم أمان وكالات تعتمد على نماذج العوالم.
TRAP: هجوم تصنيف مدرك للطول في نماذج العالم وتخطيط الذكاء الاصطناعي
يثير هجوم TRAP المخاطر الأمنية في نماذج العالم من خلال استهداف تصنيف المسارات المتخيلة، مما يؤثر على تنفيذ القرارات. النتائج تظهر ضرورة تقييم الأمان لمثل هذه النماذج المتقدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
