مع تطور نماذج اللغات الضخمة (LLMs)، بدأت التطبيقات العسكرية تُظهر قدرتها على تحسين اتخاذ القرارات وتعزيز الكفاءة التشغيلية. ومع ذلك، تبرز الحاجة إلى معايير جديدة لتقييم سلامة هذه النماذج في السياقات العسكرية، وذلك لأن المعايير الحالية تركز بشكل عام على المخاطر الاجتماعية ولا تختبر مدى التزام هذه النماذج بالقوانين والأخلاقيات التي تحكم العمليات العسكرية الحقيقية.

لذلك، تم تقديم معيار ARMOR 2025، وهو معيار تقييم سلامة متوافق مع المعايير العسكرية، مستنداً إلى ثلاثة أسس رئيسية: قانون الحرب، قواعد الاشتباك، وتنظيم الأخلاقيات المشتركة. يهدف هذا المعيار إلى سد الفجوات في الطرق المستخدمة حالياً لتقييم سلامة نماذج اللغات الضخمة.

يتم تصميم ARMOR 2025 من خلال استخراج نصوص وقواعد من هذه المصادر العسكرية، وتحويلها إلى أسئلة متعددة الاختيارات تحافظ على المعاني المقصودة من كل قاعدة. كما يرتب المعيار نفسه وفقاً لتصنيف يعتمد على إطار اتخاذ القرار المسمى Observe Orient Decide Act (OODA) والذي يمكن الباحثين والمستخدمين من الاختبار المنهجي للدقة والرفض عبر أنواع مختلفة من القرارات العسكرية.

يتضمن هذا المعيار هيكلاً مكونًا من 12 فئة تصنيفية و519 مجموعة من الأسئلة المستندة إلى القواعد العسكرية، بالإضافة إلى إجراءات تقييم دقيقة تُطبق على 21 نموذجاً تجارياً من نماذج اللغات الضخمة. تكشف نتائج التقييم عن وجود فجوات حرجة في توافق السلامة مع التطبيقات العسكرية، مما يستدعي المزيد من الأبحاث والتطوير في هذا المجال الهام.