في ظل الانفجار الهائل في استخدام الذكاء الاصطناعي، أصبحت الأسئلة حول السلامة والتأكد من عدم وجود أهداف خفية في الأنظمة الذكية أكثر إلحاحًا من أي وقت مضى. تسلط ورقة البحث هذه الضوء على فجوة ملحوظة تشوب أساليب ضمان السلوك الحالية، مما يحرمنا من القدرة على تقديم التأكيدات اللازمة حول سلامة الأنظمة المتطورة.
على الرغم من أن هذه الأساليب قد تم تصميمها بعناية، إلا أن الإطار القانوني الذي تم تنفيذه بين عامي 2019 و2026 يتطلب أدلة يمكن مراجعتها فيما يتعلق بخصائص معينة، مثل مقاومة فقدان السيطرة. ومع ذلك، تظل المناهج الحالية، التي تركز بشكل أساسي على التقييمات السلوكية (Behavioural Evaluations) والمراجعة القاسية (Red-Teaming)، محصورة فقط في النتائج المرئية للنماذج، ولا تستطيع التحقق مما قد تضمنه السلبيات أو السلوكيات المعقدة التي من المفترض أن تنظمها هذه الإطارات.
نقدم مفهوم "فجوة التدقيق" (Audit Gap) لوصف الفجوة بين ما هو مطلوب للمراجعة وما يمكن تحقيقه من عملية التحقق. كما نقترح مفهوم "الضمان الهش" (Fragile Assurance) للإشارة إلى الحالات التي لا تدعم فيها الهيكلية الدليلية التوكيدات المتعلقة بالسلامة. من خلال تحليل قائمة من 21 أداة، حددنا وجود حوافز تؤدي إلى مكافأة المؤشرات السلوكية السطحية بدلاً من التحقق البنيوي العميق بسبب الضغوط الجيوسياسية والصناعية.
أخيرًا، نقترح تحولًا تقنيًا يتمثل في تحديد وزن الأدلة السلوكية في النصوص القانونية، وتوسيع إمكانية الوصول الطوعي قبل النشر لتشمل فئات الأدلة الميكانيكية، مثل المسابير الخطية (Linear Probes) وتعديل النشاط (Activation Patching) والمقارنات قبل/بعد التدريب. هذا قد يساعد على بناء ثقة أكبر في أنظمتنا الذكية والسماح لنا بالمضي قدمًا نحو تطوير آمن ومتوازن.
تحذير: كيف تفتقر أنظمة ضمان السلوك لتأكيد سلامة الذكاء الاصطناعي؟
تتطلب هياكل الحوكمة الخاصة بالذكاء الاصطناعي إثباتات قابلة للمراجعة تسلط الضوء على مخاطر قد لا تستطيع أساليب ضمان السلوك التحقق منها. في هذا المقال، نستكشف فجوة التحقق وكيف يمكن تحسين آليات الأمان.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
