تمر الأنظمة الذكية في الوقت الحالي بمرحلة مثيرة من التطور، حيث يتم استخدامها بشكل متزايد كعملاء مستقلين قادرة على التفكير واستخدام الأدوات واتخاذ الإجراءات على مدار خطوات متعددة. ومع ذلك، وعلى الرغم من التقدم الكبير، لا تزال الكثير من معايير تقييم الهلاوس (Hallucinations) تركز فقط على النتيجة النهائية، مما يفوت العديد من العيوب التي تنبع من خطوات التفكير - العمل - الملاحظة.

لذا، قدم فريق من الباحثين في دراسة جديدة أطلقوا عليها اسم "Trajel"، والتي تتضمن مجموعة بيانات وإطار عمل لتقييم الهلاوس على مستوى المسارات في workflows الصناعية متعددة الوكلاء. يهدف هذا الابتكار إلى معالجة أنواع معينة من الأخطاء التي يمكن أن تحدث خلال عمل الأنظمة الذكية.

تعتمد دراسة "Trajel" على تصنيف شامل يوفر خمس فئات للهلوسة: الحقائق، الإشارات، المنطق، الإجراءات، والاعتماد على النطاق. يتم تحليل آثار الأنظمة الذكية بناءً على خبرات موثقة من بيانات "AssetOpsBench".

تظهر نتائج البحث أن النماذج الحالية للكشف عن الهلاوس تفوت العديد من أساليب الفشل الشائعة، حيث تُظهر الإحصاءات أن ما يقرب من نصف المسارات الهلوسية تتضمن عدة أنواع في وقت واحد. كما أظهرت النتائج أيضا أن أجهزة الكشف الآلية، رغم كونها دقيقة، لا تزال تخطئ في تصنيف الأنواع الأكثر دقة.

إن وجود أدوات كشف متوافقة مع المسارات يعد تحسناً واضحاً مقارنةً بأساليب التحقق التقليدية، مما يجعل تقييمات مرتكزة على التصنيفات ضرورية لضمان نشر أكثر أماناً لهذه الأنظمة الذكية.