مع تطور أنظمة الوكالة (Agent Systems) ودخولها في بيئات تنفيذ متنوعة، أصبح من الضروري وجود معايير تقييم السلامة للمسارات (Trajectory Safety Evaluation) وتحديد المشاكل (Diagnosis) التي تتطور معها. هنا يأتي دور ATBench، وهو معيار متنوع وواقعي لتقييم السلامة.
في تقريرنا، نستعرض ATBench-Claw وATBench-Codex، وهما امتدادان مُخصصان لهذه المعايير، حيث يحملان ATBench إلى مجالات OpenClaw وOpenAI Codex.
آلية التكيف الأساسية هي تحليل كل بيئة جديدة، وتخصيص تصنيف السلامة ثلاثي الأبعاد (Safety Taxonomy) وفقاً لمصادر المخاطر (Risk Source) وأشكال الفشل (Failure Mode) والأضرار الواقعية (Real-World Harm). تُستخدم هذه التصنيفات المخصصة لتحديد مواصفات المعايير المستخدمة في عملية بناء ATBench المشتركة.
تعد القابلية للتوسع هذه مهمة للغاية، حيث تبقى الهياكل الأساسية للوكالات مستقرة نسبياً على الرغم من التغييرات السريعة في إعدادات التنفيذ، وأنظمة الأدوات، وإمكانات المنتج.
بشكل ملموس، يستهدف ATBench-Claw سلاسل التنفيذ الحساسة لـ OpenClaw عبر الأدوات والمهارات والجلسات والإجراءات الخارجية، بينما يستهدف ATBench-Codex المسارات في إعداد Codex-runtime من OpenAI عبر المستودعات والأصداف والتصحيحات والموافقات وحدود سياسات التشغيل.
في الختام، نركز على تخصيص التصنيفات (Taxonomy Customization) وتغطية المخاطر الخاصة بالحقل (Domain-Specific Risk Coverage) وتصميم المعايير ضمن إطار بناء ATBench المشترك. ما رأيكم في هذه التطورات المثيرة في مجال الذكاء الاصطناعي؟ شاركونا في التعليقات!
معايير تقييم السلامة في المسارات لوكالة الذكاء الاصطناعي: اكتشفوا ATBench-Claw وATBench-Codex!
تقدم ATBench-Claw وATBench-Codex معايير مُخصصة لتقييم سلامة المسارات في بيئات التنفيذ المختلفة لوكالات الذكاء الاصطناعي. تعرف على كيفية تطور هذه المعايير لضمان الأداء المثالي في البيئات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
