في عالم سريع التغير، حيث تتزايد هيمنة [الوكلاء](/tag/الوكلاء) المستقلين المعتمدين على [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLMs](/tag/llms))، يبرز سؤالٌ مُلح: كيف نضمن [سلامة](/tag/سلامة) هذه الأنظمة؟ منذ أواخر عام 2023، أُدخلت مجموعة من [المعايير](/tag/المعايير) الجديدة لتقييم السلامة، ولكن مع الأسف، تطورت هذه [المعايير](/tag/المعايير) بشكل مستقل، مما أدى إلى تحديد [نماذج](/tag/نماذج) [تهديد](/tag/تهديد) غير متسقة وقياسات غير متوافقة.
في [تحليل](/tag/تحليل) شامل، تم [تدقيق](/tag/تدقيق) 40 مقياسًا سلوكيًا للسلامة وعرض خمسة [أدوات](/tag/أدوات) مرافقة. تمت صياغة [تصنيف](/tag/تصنيف) مكون من ستة محاور لتلك المقاييس، وتم التطبيق على [مجموعة البيانات](/tag/مجموعة-[البيانات](/tag/البيانات)) لتوضيح كيفية تشكيل الخيارات المنهجية لاستنتاجات [السلامة](/tag/السلامة).
تكشف مصفوفة [التغطية](/tag/التغطية) عن تغطية واسعة للمخاطر، ولكن مع محدودية في التقارب المنهجي. كما يُظهر [تحليل](/tag/تحليل) [التصنيف](/tag/التصنيف) وجود جوهر محدد للمعايير السلوكية يتركز في [تقييمات](/tag/تقييمات) محصورة غالبًا ما تتعلق بالسلامة فقط.
ومن خلال الفحص المشترك بين المقاييس، وُجد أن 95% من فترات [الثقة](/tag/الثقة) تُظهر عدم وجود [توافق](/tag/توافق) في ترتيب [الأمان](/tag/الأمان) [عبر](/tag/عبر) الأبعاد المختلفة.
تم فيها تقديم [معايير جديدة](/tag/[معايير](/tag/معايير)-جديدة) للتقارير ووحدة التعريف بالبيانات، مما يعني أن المستخدمين يمكنهم الاعتماد على [معلومات](/tag/معلومات) أدق وأكثر [مصداقية](/tag/مصداقية) لتحسين [أمان](/tag/أمان) أنظمتهم.
إذا كنت مهتمًا بتفاصيل هذا البحث، فلا تترد في [استكشاف](/tag/استكشاف) المزيد.
تحليل شامل معايير السلامة لوكلاء الذكاء الاصطناعي: هل تُعَدّ آمنة؟
مع الانتشار السريع لوكلاء الذكاء الاصطناعي المعتمدين على نماذج اللغات الضخمة (LLMs)، يبرز قلق بشأن أمان هذه الأنظمة. تحليل حديث يكشف عدم الاتساق في المعايير المستخدمة لتقييم سلامة الوكلاء ويقدم تصنيفات جديدة لتوحيد الفهم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
