مع تسارع التطورات في نماذج تحويل النص إلى فيديو (Text-to-Video)، تظهر مخاوف متزايدة بشأن مخاطر الأمان المرتبطة بها. بينما تم استكشاف الثغرات في نماذج اللغة الكبيرة (Large Language Models) ونماذج تحويل النص إلى صورة (Text-to-Image)، لم تُستكشف نماذج تحويل النص إلى فيديو بشكل كافٍ، مما يترك فجوة كبيرة في الأمان.
لملء هذه الفجوة، تم تقديم تقنية جديدة تُسمى SceneSplit، وهي طريقة اختراق جديدة تعتمد على تقسيم السرد الضار إلى مشاهد متعددة، بحيث يكون كل مشهد آمن في حد ذاته. يعمل هذا الأسلوب على التلاعب في مساحة المخرجات التوليدية، مجموعة النتائج المحتملة لجميع الفيديوهات المتعلقة بنص معين، وذلك باستخدام الجمع بين المشاهد كقيد قوي لتوجيه النتيجة النهائية.
بينما تتوافق كل مشهد بشكل فردي مع مساحة واسعة وآمنة حيث تكون معظم النتائج غير ضارة، فإن جمعها بشكل تسلسلي يقيّد هذه المساحة بشكل جماعي، مما يقود إلى منطقة غير آمنة ويزيد بشكل كبير من احتمال إنتاج فيديو ضار. كما يتم تعزيز هذا الآلية الأساسية من خلال تلاعب مشهدي متكرر، مما يتجاوز فلتر الأمان ضمن هذه المنطقة غير الآمنة.
علاوةً على ذلك، يتم تحسين فعالية الهجوم الإجمالية من خلال مكتبة استراتيجيات تعيد استخدام نماذج هجمات ناجحة. للتأكد من فعالية أسلوب SceneSplit، تم تقييمه عبر 11 فئة أمان من T2VSafetyBench على نماذج تحويل النص إلى فيديو. وأظهرت النتائج معدل نجاح هجوم متوسط (Attack Success Rate) مرتفعًا يصل إلى 77.2% على نموذج Luma Ray2، 84.1% على Hailuo، 78.2% على Veo2، 78.6% على Kling V1.0، و68.6% على Sora2، متفوقًا بوضوح على القواعد الأساسية الموجودة.
هذا العمل لا يكشف فقط عن ضعف آليات الأمان الحالية في نماذج تحويل النص إلى فيديو، بل يوفر أيضًا رؤى جديدة لفهم وتحسين هذه النماذج، مما يجعلها أكثر أمانًا في المستقبل.
استراتيجيات التهديد لأمان نماذج تحويل النص إلى فيديو: الاستكشاف المثير لـ SceneSplit!
يتناول البحث الجديد استراتيجيات جديدة للاختراق في نماذج تحويل النص إلى فيديو عبر استخدام تقنية SceneSplit، التي تقسم السرد الضار إلى مشاهد منفصلة. تكشف النتائج عن ضعف آليات الأمان الحالية وتفتح آفاقًا جديدة لتحسين سلامة هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
