مع تزايد استخدام النماذج اللغوية الضخمة (Large Language Models - LLMs) في التطبيقات الحقيقية، أصبحت الحاجة إلى تقييم السلامة بشكل منهجي وفعال أمرًا بالغ الأهمية. في هذا السياق، تقدم الورقة البحثية الجديدة 'A Policy-Grounded Safety Evaluation of 20 Large Language Models' منصة Aymara AI، التي تتيح توليد وتنفيذ تقييمات سلامة مخصصة تستند إلى السياسات.
Aymara AI تحول سياسات السلامة باللغة الطبيعية إلى مطالبات معادية (adversarial prompts) وتقيم نتائج النماذج باستخدام مصنّف قائم على الذكاء الاصطناعي تم التحقق منه مقابل أحكام بشرية.
تم عرض قدرات هذه الأداة من خلال مصفوفة المخاطر والمسؤولية لنموذج Aymara LLM، التي تقيم 20 نموذجاً لغوياً متاحاً تجارياً عبر 10 domains للسلامة في العالم الحقيقي.
كشفت النتائج عن تفاوت كبير في الأداء، حيث تراوحت متوسط درجات السلامة بين 86.2% و52.4%. في حين أن النماذج قدمت أداءً جيداً في مجالات السلامة التقليدية مثل المعلومات المضللة (mean = 95.7%)، إلا أنها فشلت بشكل متكرر في المجالات الأكثر تعقيدًا مثل الخصوصية (mean = 24.3%).
أكدت تحليلات التباين أن درجات السلامة تختلف بشكل ملحوظ عبر النماذج والمجالات (p < .05).
تسلط هذه النتائج الضوء على الطبيعة غير المنتظمة والمرتبطة بالسياق لسلامة النماذج اللغوية الضخمة، مما يعزز الحاجة إلى أدوات مثل Aymara AI التي تدعم التطوير المسؤول للذكاء الاصطناعي وبحاجة ملحة للمراقبة الفعالة.
كشف الأسرار: تقييم سلامة 20 نموذجاً لغوياً ضخماً بطريقة مبتكرة!
تقدم دراسة جديدة منصة Aymara AI لتقييم سلامة النماذج اللغوية الضخمة باستخدام سياسات قائمة على البيانات، مما يكشف عن تفاوت كبير في الأداء بين النماذج المختلفة. النتائج تبين ضرورة وجود أدوات قابلة للتخصيص لتعزيز سلامة الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
