تتغير الحاجة إلى تقييم مخرجات النماذج مع تزايد استخدام القضاة الأمنيين في هذا المجال، حيث تظهر الأبحاث الحديثة أن هؤلاء القضاة يواجهون صعوبات أمام تباين المعايير والاطروحات. تشير التقارير إلى أن معدلات الخطأ في تحديد النتائج الإيجابية قد تصل إلى 0.24 فقط نتيجة لتغيرات نمطية بسيطة. في هذا السياق، نرى أن الحكم على الأمان هو في جوهره مشكلة تتعلق بتطبيق المعايير (rubric-following problem).

تتطلب المهمة من القاضي أن يتكيف مع تنوع المعايير بدلاً من الاعتماد على قالب محدد. لذا، قدمنا استراتيجية تدريب مبتكرة تجمع بين نوعين رئيسيين من الجداول الزمنية: أُطر مرنة متعلقة بالاستجابة تُنتج من ثلاثيات (prompt-response-label) لتعريف القاضي على التباين في معايير التقييم، ومنهج تعليمي يتيح الانتقال من الإشراف الثابت إلى بيانات ديناميكية أكثر تعقيدًا.

تطويرنا هذا تم اختباره من خلال بيانات تم تصنيفها من قبل البشر تحت ثلاثة محاور تقييم متباينة. أظهرت النتائج أن القاضي ذو النموذج بـ 12 مليار وحدة (12B) يحقق دقة تتراوح بين 94.12% و94.88% عبر المحاور الثلاثة، مع نطاق تباين يصل فقط إلى 0.76. وقد تخطت هذه الدقة تلك التي حققتها نماذج اللغات العامة (general-purpose LLMs)، ومصنّفات الأمان المتخصصة، بل وأيضًا القضاة المعتمدين على التفكير حتى فئة 30 مليار وحدة.

أظهرت تجربة إضافية أن دمج الجداول الديناميكية بطريقة عشوائية يؤدي لزيادة تباين النتائج.Hash للإصلاح مع الجداول الزمنية يحدث تطوراً إيجابياً، مما يعيد الاستقرار والدقة إلى الأساس الثابت. إن هذه التطورات تعد خطوة هامة نحو تحسين أدوات تقييم النماذج وتحقيق أمان أكبر في استخدام الذكاء الاصطناعي.