في عالم الذكاء الاصطناعي المتطور، تبرز نماذج Mixture-of-Experts (MoE) كنموذج فعال يقوم بتفعيل مجموعة محدودة من المعلمات لكل رمز. دراسة حديثة تناولت نماذج Mixtral 8x7B-Instruct تبحث في سلوك التوجيه تحت تأثير الزناديات الودية (benign) والمعادية (harmful). اعتمدت الدراسة على إشارتين متكاملتين لتحديد سلوك التوجيه: الأولى، درجات التوجيه المستندة إلى التفعيل، والثانية، درجات المستندة إلى التدرجات التي تشير إلى حساسية بوابات التوجيه.
تشير النتائج إلى أن استخدام الخبراء (experts) بناءً على التفعيل يكون واسع النطاق وطويل الذيل، بينما تتركز الأهمية بناءً على التدرجات. عند المستوى الخبري، تبين أن مجموعات الزناديات الودية والمعادية لا تزال قريبة تحت كلا الإشارتين، مع انفصال طفيف. وعند المستوى الطبقي، كان التوجيه المبني على التفعيل الأكثر انتقائية في الطبقات من 8 إلى 15، بينما كانت الأهمية المرتبطة بالتدرجات تتركز في الطبقات النهائية.
عند تحليل تصنيف الخبراء، يظهر أن معظم الخبراء مشتركون بين الزناديات الودية والمعادية، على الرغم من أن مجموعة محدودة منهم تظهر تفضيلًا واضحًا. كذلك، تشير مجموعات الخبراء المرتبة ضمن القمة إلى تداخل أقوى بين الزناديات الودية والمعادية استنادًا إلى درجات التدرجات مقارنة بدرجات التفعيل، مما يدل على التركيز على مجموعة من الخبراء في الطبقات النهائية.
وفي تجارب التدخل، أدى تقليل تأثير أفضل خمسة خبراء مهيمنين على الزناديات الودية إلى تقليص الردود المقيدة من 24 إلى 14 عبر 100 طلب، بينما أدى تقليل الخبراء المستندين إلى التدرجات إلى تقليلها من 34 إلى 22 مع تقليل الانعكاسات غير المرغوب فيها. بهذه الطريقة، تُظهر النتائج أن العمليات المرتبطة بالأمان في Mixtral معقدة، تعتمد على العمق، وموزعة بدلاً من أن تقودها مجموعة ثابتة من الخبراء.
في النهاية، إن فهم سلوك التوجيه في نماذج الذكاء الاصطناعي مثل Mixtral ليس ضروريًا فحسب، بل هو خطوة حيوية نحو ضمان سلامة وأمان هذه الأنظمة في المستقبل.
التحليل الأمني لتوجيه نماذج Mixtral MoE: هل تسهم الزناديات في سلامة الذكاء الاصطناعي؟
تسلط الدراسة الضوء على سلوك التوجيه في نماذج Mixtral MoE ومدى تأثير الزناديات المعادية والودية على أداء النموذج. النتائج تكشف عن تداخل معقد بين التأثيرات المختلفة، مما يعكس الحاجة لفهم أعمق لآليات الأمان في الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
