مع الانتشار الواسع لنماذج اللغات الضخمة (LLMs)، أصبح من الضروري إجراء تقييم صارم ومنهجي لأمان هذه الأنظمة. تعتمد الطرق التقليدية حاليًا إما على استخدام مقاييس محددة لقياس الأمان من وجهات نظر محددة، أو تعتمد على فرق الهجوم الديناميكية لاكتشاف النقاط الضعيفة المحتملة. لكن، تواجه هذه الأساليب مجموعة من التحديات، فهي تعتمد بشدة على معرفة الخبراء في المجال، وقد تفتقر إلى الضمانات المنهجية المحدودة، فضلاً عن كونها عرضة للتقادم السريع.

استجابة لهذه القضايا، نقدم إطارًا مبتكرًا يُسمى POLARIS، الذي يجلب دقة اختبارات البرمجيات القائمة على المواصفات إلى أمان الذكاء الاصطناعي. يقوم POLARIS أولاً بتحويل السياسات المكتوبة بلغة طبيعية غير منظمة إلى تمثيل منطق أول (First-Order Logic) مما يخلق رابطًا قابلاً للتتبع بين القواعد العامة وحالات الاختبار المحددة. يمكّن هذا التحليل من إنشاء رسم بياني سياسي دلالي (Semantic Policy Graph)، حيث يتم ترميز سيناريوهات انتهاك السياسات المعقدة كمسارات قابلة للتنقل.

من خلال استكشاف هذا الرسم البياني بشكل منهجي، يكشف POLARIS عن أنماط انتهاك تركيبية، والتي تُستكمل بعد ذلك في استفسارات اختبار بلغة طبيعية قابلة للتنفيذ. وقد أظهرت التجارب أن POLARIS يحقق تغطية سياسة أعلى وعددًا أكبر من حالات نجاح الهجمات مقارنة بالمعايير الحالية.

وباختصار، من خلال الجمع بين الأساليب الرسمية وأمان الذكاء الاصطناعي، يوفر POLARIS نهجًا آليًا ومنهجيًا لضمان التزام نماذج اللغات الضخمة (LLMs) بالسياسات الحرجة للسلامة مع قابلية التتبع القابلة للتحقق. لمزيد من المعلومات، يمكنك زيارة شفرتنا المصدرية على GitHub.