في عالم الذكاء الاصطناعي، أصبحت الأنظمة الوكيلة (Agent Systems) تعمل كعوامل ذاتية مستقلة تطلب الوظائف وتدير الذاكرة، مما يزيد من تعقيد إدارة الأخطاء. دراسة حديثة تناولت فشل الأنظمة الخاصة بـ LLN (نماذج اللغات الكبيرة) تكشف عن 22 حادثة من "الأخطاء الصامتة" خلال فترة ثمانية أسابيع. هذه الأخطاء لا تصل إلى المستخدمين بشكل قابل للعمل، مما يجعلها أشبه بالقصص التي تُروى دون أن يدرك أحد فشلها.

استندت الدراسة إلى نظام وكيل مساعد شخصي يعمل منذ مارس 2026، حيث تم توثيق حوالي 40 وظيفة مجدولة، و8 مزودي LLM، و4,286 اختبارًا وحدويًا. على الرغم من الدفاع القوي الذي يقدمه هذا النظام، فإن النتائج أظهرت أن 70% من هذه الأخطاء الصامتة كشفها المستخدمون، بينما اضطرت التقييمات إلى الاعتماد على ملاحظة المستخدمين بدلاً من الاختبارات المدروسة.

تم تصنيف الأخطاء إلى خمس فئات: quirks الخاصة بالبيئة والنظام، الفروقات في فرضيات التصميم، مشاكل بلع الأخطاء، الهلوسة المتسلسلة، والتغييرات التشغيلية التي تجعلنا غير قادرين على رؤية الأخطاء بوضوح. الفئة الرابعة، المتعلقة بالهلوسة، تعتبر الأكثر خطورة، حيث يتحول الخطأ إلى سرد مقنع يوصل للمستخدم بشكل يبدو موثوقًا.

تعكس هذه الدراسة الحاجة الملحة إلى تصحيح هذه الأخطاء ودراسة كيفية تقوية الأنظمة الوكيلة لتكون أكثر شفافية وموثوقية. وبالتالي، تُعد هذه النتائج بمثابة نقطة انطلاق لتحسين أنظمة الذكاء الاصطناعي وجعل فشلها أضعف وأكثر وضوحًا. ما هو رأيكم في أهمية كشف الأخطاء في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات.