في عالم الذكاء الاصطناعي، تواجه نماذج اللغة الكبيرة (Large Language Models) تحديات كبيرة تتعلق بالأمان والتقييم. يتفق الباحثون على أن هناك مشكلة في القياس مشترك بين تقييم الخوارزميات وسلامة الذكاء الاصطناعي، حيث يمكن أن ترتفع درجات المقياس وأداء نماذج المكافآت بينما تظل الخصائص الكامنة التي تمثلها هذه المؤشرات صعبة التحقق.

وقد تناولت دراسة جديدة نشرها الباحثون على موقع arXiv، بتقديم إطار عمل مبتكر يحمل اسم EvalSafetyGap. يجمع هذا الإطار بين استبيان هجين – تم جمع بيانات نظاميّة مدعومة بسرد سردي وتسجيل مستقل لأدلة غير رسمية – مع تحليل هيكلي لعدة نماذج.

تشمل الدراسة ثمانية تدفقات من الأدلة تشمل صلاحية المقياس، التقييم الديناميكي، موثوقية LLM كحكم، تقييم السلامة، مرونة إلغاء قفل/رفض النماذج، اختراق المكافآت، القابلية للتفسير الميكانيكي، والحوكمة/إجراءات التدقيق، مشكلة تمتد من عام 2018 حتى 2026.

يساهم مفهوم EvalSafetyGap في تنظيم الفرضيات لمقارنة فشل نماذج التقييم والمواءمة تحت ضغط التحسين، وذلك باستخدام قانون جودهارت (Goodhart's Law) مع اثنين من المفاهيم الجديدة التي تم تطويرها في الدراسة - تحليل عدم الاستقرار (Instability Decomposition) ومفارقة المواءمة (Alignment Trilemma) - كأدوات لتوليد مقارنات قابلة للاختبار.

والنتائج التي تم الحصول عليها من التدقيق تظهر كيفية تحوّل الاستنتاجات عندما يتم قياس القدرة، سلامة السلوك، والحوكمة بشكل منفصل. كانت الارتباطات في هذا النموذج (n = 10) غير محددة إحصائياً، مما يُظهر أن الفجوة الأمان المحتملة تتأثر أساساً بالحكم والإفصاح بدلاً من المتانة السلوكية.

تمثل هذه الأبحاث خطوة نحو تقديم مفردات مشتركة وخريطة دليلية لدعم التقييم الديناميكي، أداء تقارير واضحة، قياس أمان متعدد المحاولات، وممارسات موثوقة قابلة للتدقيق. إن كنت مهتما بمتابعة أحدث الانجازات في عالم الذكاء الاصطناعي، فلننقاش هذه الفجوة الجديدة في الأمان! ما هي آرائكم؟ شاركونا في التعليقات.