في ظل الاستخدام المتزايد لتقنيات الذكاء الاصطناعي (AI) في التطبيقات اليومية، يبدأ الخوف من التفاعلات غير الآمنة بين المستخدم والنموذج في الظهور. لذا، تسعى SafePyramid، والتي تمثل معيارًا ثوريًا جديدًا، إلى ملء هذه الفجوة. يتمثل الهدف الرئيسي من SafePyramid في رفع كفاءة الحماية من خلال التقييم الدقيق لسياسات الأمان.
يعتمد هذا المعيار على مفهوم 'حماية السياسات في السياق'، حيث يقوم بتوقع الانتهاكات الأمنية استنادًا إلى مواصفات السياسات المقدمة في السياق المناسب. يتضمن SafePyramid 1,000 محادثة متعددة الجولات عبر 10 مجالات و3,000 سياسة أمان محددة، تحتوي على 61,699 قاعدة قانونية طبيعية متميزة.
تم تصميم التصنيف إلى ثلاثة مستويات صعوبة:
- **L0**: تقييم فهم القواعد الفردية.
- **L1**: تقييم التفكير حول تبعيات القواعد.
- **L2**: تقييم قدرة التكيف مع أطر السياسات الجديدة تمامًا المحددة في السياق.
لتأكيد جودة المعيار، تم بناء SafePyramid عبر سلسلة من الخطوات الدقيقة، مما يدعم موثوقيته. ومع تقييم 10 نماذج لغوية متطورة و5 أنظمة حماية قابلة لضبط السياسات، تُظهر النتائج أن تنفيذ الحماية في السياق لا يزال يمثل تحديًا كبيرًا. على سبيل المثال، أفضل نماذج الأداء، GPT-5.5، تمكنت فقط من تحديد مجموعة القواعد المنتهكة بدقة في 54.0% و35.3% و12.9% من الحالات على التوالي في المستويات الثلاثة.
تُظهر هذه النتائج القيود الحالية للأنظمة المستخدمة، مما يستدعي تطوير حلول حماية أكثر قوة يمكنها تنفيذ السياسات بدقة، وحل تبعيات القواعد، والتكيف مع أطر السياسات الجديدة. هل تعتقد أن هذا الابتكار سيحدث تأثيرًا إيجابيًا في تطوير أدوات الذكاء الاصطناعي؟ شاركونا آراءكم.
SafePyramid: طفرة جديدة في تقييم سياسات الحماية في الذكاء الاصطناعي
تؤسس SafePyramid معيارًا جديدًا لتقييم سياسات الحماية في نماذج الذكاء الاصطناعي، حيث تُستخدم لتحديد التفاعلات غير الآمنة بين المستخدم والنموذج بناءً على سياسات أمان محددة. نتيجة التجارب تشير إلى الحاجة لتطوير أساليب أكثر كفاءة في تنفيذ هذه السياسات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
