في عالم التحكم الذاتي (Autonomous Control) والهندسة الروبوتية، تلعب نماذج العالم (World Models) دورًا حيويًا من خلال قدرتها على تعلم الديناميات الكامنة (Latent Dynamics) اللازمة للتخطيط واتخاذ القرار. ومع تزايد الاعتماد على هذه الأنظمة في ظروف تتطلب أماناً عالياً، أصبح من الضروري فهم متانتها في وجه التحديات العدائية (Adversarial Conditions) التي قد تواجهها.
للأسف، تعاني الت evaluations الحالية من نقص في وجود معيار موحد لاختبار التهديدات العدائية عبر مستويات السياسة (Policy) والقيمة (Value) والديناميات الكامنة. هنا يأتي دور ARB4WM، الإطار الجديد الذي يهدف إلى تقييم متانة وكفاءة نماذج العالم في ظل الهجمات البصرية (Visual Perturbations).
يعرف ARB4WM خمسة أهداف خسارة (Loss Objectives) ضمن هذه المستويات الثلاثة، ويدرس تأثيراتها حينما تتزامن مع استراتيجيات الاختراق (Perturbation Strategies) بمستويات مختلفة، وأساليب الهجوم الزمني (Temporal Attack Modes) مثل التعرض الكامل (Full-frame) ونصف التسلسل (Half-sequence) والتعرض المتقطع (Sparse-frame).
نقوم بتقييم أربعة وكلاء على نمط Dreamer عبر 20 مهمة من MetaWorld ومجموعة DeepMind Control، تحت أهداف خسارة واستراتيجيات اختراق مختلفة. وأظهرت النتائج أن الهجمات التي تستهدف تقدير القيمة، والتمثيلات الكامنة، وديناميات RSSM، يمكن أن تكون مدمرة تمامًا مثل التعطيل المباشر للسياسة. كما أن التعرض المبكر أو المتكرر يكون له تأثيرات سلبية خاصة، بينما تقدم الدفاعات على مستوى الإدخال (Input-level Defenses) تعافيًا محدودًا في ظل الهجمات المتكيفة.
تشير هذه النتائج إلى ضرورة توسيع نطاق تقييم السلامة والمخاطر والموثوقية لدى نماذج العالم ليشمل أهداف هجوم متعددة بتوجيه مركزي وبروتوكولات تعرض زمني، بدلاً من الاعتماد على متانة نطاق العمل فقط.
يمكنكم الاطلاع على الكود المصدري للمشروع على GitHub.
ARB4WM: معيار جديد لقياس متانة نماذج العالم في التحكم المستدام!
تقديم ARB4WM كإطار موحد لفحص متانة وكفاءة نماذج العالم في سياقات حسن التحكم. الدراسات الجديدة تكشف تأثير الهجمات على قرار وكفاءة النموذج بشكل غير مسبوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
