في عالم تقنية المعلومات المتسارع، تبرز الحاجة الملحة لوكلاء الهواتف الذكية الذين يمكنهم التعامل بفعالية مع المواقف الحرجة دون التعرض لمخاطر. ولكن هل يعني الابتعاد عن الأذى أن وكيل الاستخدام آمن، أم أنه ببساطة يعاني من عدم القدرة على الفعل؟

تواجه التقييمات الحالية تحديات رئيسية في التفريق بين هذين الأمرين. فقد يكون تجنب النتيجة الضارة ناجمًا عن الوعي بالمخاطر واختيار التصرف الآمن، أو أنه ببساطة نقص في الفهم أو القدرة على القيام بأي إجراء ذي صلة. وكلا الحالتين تتطلبان استراتيجيات مختلفة للتصحيح، لكنظمة التقييم المعتمدة غالبًا ما تدمجها ضمن نجاح المهمة أو الرفض، مما يعيق المساعي نحو تحسين الأمان.

للتغلب على هذه المعوقات، تم تطوير معيار جديد يُعرف باسم PhoneSafety، والذي يتضمن 700 لحظة حرجة في الاستخدام مستمدة من تفاعلات حقيقية مع أكثر من 130 تطبيقًا. يهدف هذا المعيار إلى عزل القرارات في اللحظات المحفوفة بالمخاطر، ويسأل ببساطة: هل يتخذ النموذج الخيار الآمن، أم الخيار غير الآمن، أم أنه يفشل في القيام بأي شيء مفيد؟

تم تقييم ثمانية وكلاء مختلفين ضمن هذا الإطار، وكشفت النتائج أن:
1. **القوة في الاستخدام العام لا تعني بالضرورة خيارات أكثر أمانًا**: وكالات تؤدي بشكل جيد في المهام العادية لا تكون دائمًا هي التي تتصرف بسلامة أكبر في اللحظات الحساسة.
2. **عدم القدرة على الفعل يشير إلى الفشل وليس الأمان**: تتجمع حالات الفشل في السياقات البصرية والتشغيلية الأكثر تطلبًا، وتحافظ على استقرارها عند تغيير بروتوكولات التقييم.

مما لا شك فيه أن النتائج تكشف عن أن وجود نتيجة غير ضارة ليس دليلاً كافيًا على الأمان. بدلاً من ذلك، يتطلب تقييم وكلاء الاستخدام الهاتفية فصل الحكم غير الآمن عن عدم القدرة على الفعل.

هل تعتقد أن الأمان يجب أن يقاس بطرق جديدة، أم أن الطرق الحالية كافية؟ شاركونا آراءكم في التعليقات.