في عالم الذكاء الاصطناعي، تتزايد تقنيات قياس أداء الوكلاء المستقلين (Autonomous Agents) بشكل مستمر، ولكن هل تعكس هذه التقنيات فعلاً التحديات التي تواجهها هذه الأنظمة؟ بحسب دراسة نشرها باحثون في arXiv، فإن المعايير المستخدمة حالياً لقياس نجاح الوكلاء تعتمد على إتمام المهام، مما يغفل جانباً بارزاً وهو متى يجب على الوكيل الامتناع عن اتخاذ إجراء.

الانحياز في الامتثال؟">ما هو الانحياز في الامتثال؟


تظهر الدراسة أن الوكلاء الذين تم تدريبهم باستخدام أهداف مدعومة من البشر يميلون إلى اتخاذ الإجراءات حتى في غياب المعلومات الكافية، وهو ما يعرف باسم "الانحياز في الامتثال" (Compliance Bias). فتحت هذا الإطار، يصبح إتمام المهام هو النتيجة المفضلة، حتى عندما قد تكون الظروف غير ملائمة.

تصنيف الفجوات في الامتناع">تصنيف الفجوات في الامتناع


اقترح الباحثون تصنيفاً جديداً يركز على السيناريوهات التي تستدعي الامتناع، ويقسمها إلى ثلاث فجوات:
1. **فجوات المواصفات** (Specification Gaps): عندما تكون المعلومات الضرورية مفقودة.
2. **فجوات التحقق** (Verification Gaps): عندما لا يمكن تأكيد حالة العالم.
3. **فجوات السلطة** (Authority Gaps): عندما لم يتم الحصول على تفويض واضح.

بروتوكولات تقييم الامتناع">بروتوكولات تقييم الامتناع


كما اقترح فريق البحث بروتوكولات جديدة لتقييم قدرات الامتناع، بما في ذلك معدل الأمان (Safety Rate) ومعدل الاستخدام (Usability Rate) ومعدل الرفض المدروس (Informed Refusal Rate). أظهرت النتائج الأولية في 144 سيناريو لمشاريع تجارية أن الآليات التي تفرض الامتناع يمكن أن تحجب حتى 89.2% من الإجراءات الخطرة.

الخاتمة


هذا البحث يشكل أساساً لمزيد من النقاشات حول كيفية تحسين كيفية قياس أداء الوكلاء المستقلين، مع التركيز على أهمية السلامة والامتناع. في ضوء ذلك، هل تعتقد أن المعايير الحالية كافية لحماية المستخدمين وبيئات العمل؟ شاركونا آراءكم في التعليقات.