في عالم الذكاء الاصطناعي، يُعتبر توليد المحتوى الآمن من أكبر التحديات التي تواجه مطوري نماذج الفيديو. مع الاعتماد المتزايد على نماذج الانتشار الفيديوي (video diffusion models) التي يمكن أن تنتج محتوى بصري واقعي، إلا أن هناك مخاوف متزايدة بشأن إنتاج محتوى غير آمن، بما في ذلك العنف والمعلومات المغلوطة.
وتمتلك معظم الحلول الحالية عيوبًا؛ فإما أنها تتطلب تدريبًا مكلفًا لضبط نماذج الأمان، مما قد يؤثر سلبًا على القدرة العامة للنموذج، أو تعتمد على فلاتر خارجية يمكن بسهولة تجاوزها عبر الطلبات العدائية.
هنا تأتي تقنية REINS (REpresentation-space INference-time Safety steering)، والتي تمثل نقطة تحول في كيفية معالجة تلك المخاوف. هذه التقنية تقدم نهجًا جديدًا يسمح بتوجيه التمثيلات الداخلية للنماذج باتجاه توليد آمن، وذلك خلال وقت الاستدلال دون الحاجة للتدريب المسبق.
تكمن التجربة الرئيسية في أن الهيكل المتعلق بالأمان مُشفر خطيًا في تفاعلات الحالة المخفية لنماذج الفيديو. وعند تطبيق تحويل بسيط تم اكتشافه باستخدام تحليل المكونات الرئيسية (PCA) على علامات الأمان الثنائية، يمكن الفصل بين مسارات التوليد الآمنة وغير الآمنة.
عند الوصول إلى مرحلة الاستدلال، يمكن إضافة هذا الاتجاه إلى الحالات المخفية في طبقة متوسطة من المحول، مما يوجه عملية التوليد نحو محتوى آمن بديل، مع عدم وجود تحديثات للوزن أو الحاجة إلى عد مفاهيم، بالإضافة إلى تطبيق عبء حسابي ضئيل.
من خلال التحليل الميكانيكي، نجد أن المعلومات المتعلقة بالأمان تتراكم بتناسق مع عمق المحول، لكن فعالية التوجيه تصل إلى ذروتها في طبقات متوسطة (تصل إلى 50% عمق)، مما يظهر توازنًا أساسيًا بين توافر المعلومات وفعالية انتشارها.
عبر اختبارات شاملة مع 9 نماذج فيديو مختلفة، وبمقاييس متعددة (1.3B إلى 5B)، وبخيارات متعددة للتوليد (من نص إلى فيديو ومن صورة إلى فيديو)، تُعتبر هذه التجارب من أكثر تقييمات الأمان اتساعًا في الأدبيات المتعلقة بتوليد الفيديو.
إذاً، أي الحلول تعتقد أنها ستكون الأكثر فعالية في تعزيز سلامة نماذج الفيديو للذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.
تحكم بالأمان: تعزيز السلامة في نماذج الفيديو للذكاء الاصطناعي دون تدريب
تقدم تقنية REINS طريقة جديدة لتعزيز السلامة في نماذج الفيديو للذكاء الاصطناعي دون الحاجة إلى التدريب، مما يضمن توليد محتوى آمن بصريًا. تعتمد الأساليب الجديدة على توجيه التمثيلات الداخلية للأنظمة لتفادي المحتوى الضار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
