معايير تقييم السلامة في المسارات لوكالة الذكاء الاصطناعي: اكتشفوا ATBench-Claw وATBench-Codex!

مع تطور أنظمة الوكالة (Agent Systems) ودخولها في بيئات تنفيذ متنوعة، أصبح من الضروري وجود معايير تقييم السلامة للمسارات (Trajectory Safety Evaluation) وتحديد المشاكل (Diagnosis) التي تتطور معها. هنا يأتي دور ATBench، وهو معيار متنوع وواقعي لتقييم السلامة.

في تقريرنا، نستعرض ATBench-Claw وATBench-Codex، وهما امتدادان مُخصصان لهذه المعايير، حيث يحملان ATBench إلى مجالات OpenClaw وOpenAI Codex.

آلية التكيف الأساسية هي تحليل كل بيئة جديدة، وتخصيص تصنيف السلامة ثلاثي الأبعاد (Safety Taxonomy) وفقاً لمصادر المخاطر (Risk Source) وأشكال الفشل (Failure Mode) والأضرار الواقعية (Real-World Harm). تُستخدم هذه التصنيفات المخصصة لتحديد مواصفات المعايير المستخدمة في عملية بناء ATBench المشتركة.

تعد القابلية للتوسع هذه مهمة للغاية، حيث تبقى الهياكل الأساسية للوكالات مستقرة نسبياً على الرغم من التغييرات السريعة في إعدادات التنفيذ، وأنظمة الأدوات، وإمكانات المنتج.

بشكل ملموس، يستهدف ATBench-Claw سلاسل التنفيذ الحساسة لـ OpenClaw عبر الأدوات والمهارات والجلسات والإجراءات الخارجية، بينما يستهدف ATBench-Codex المسارات في إعداد Codex-runtime من OpenAI عبر المستودعات والأصداف والتصحيحات والموافقات وحدود سياسات التشغيل.

في الختام، نركز على تخصيص التصنيفات (Taxonomy Customization) وتغطية المخاطر الخاصة بالحقل (Domain-Specific Risk Coverage) وتصميم المعايير ضمن إطار بناء ATBench المشترك. ما رأيكم في هذه التطورات المثيرة في مجال الذكاء الاصطناعي؟ شاركونا في التعليقات!

معايير تقييم السلامة في المسارات لوكالة الذكاء الاصطناعي: اكتشفوا ATBench-Claw وATBench-Codex!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

هل يحدد OpenAI مستقبل الأمن السيبراني؟ الكشف عن أداة GPT-5.5 Cyber المبتكرة!

إيلون ماسك يكشف السر: كيف قامت xAI بتدريب Grok باستخدام نماذج OpenAI!

استعد لرحلة مستقبلية: مساعد Google Gemini ينطلق في ملايين المركبات!