في عالم الذكاء الاصطناعي، يعتمد الوكلاء المعتمدون على البحث العميق (Deep-Research Agents) على مسارات طويلة من البحث، استخدام الأدوات، فحص الأدلة، وتوليف الإجابات لحل المهام. بينما تُقيم نجاحات هؤلاء الوكلاء بناءً على الإجابات النهائية، فإن هذا لا يكشف عن الأجزاء التي قد تجعل هذه الإجابات غير موثوقة. في دراسة جديدة تم نشرها على arXiv، تم تسليط الضوء على تقنيات جديدة لتحديد أماكن الأخطاء في المسارات، حيث تم جمع 2,790 مسارًا فعليًا من إطارين لوكالات وثلاثة نماذج أساسية.

تستخدم الدراسة تقنيات الانحدار اللغوي (LLM) لتمييز وتحديد فترات الأخطاء الضارة من خلال مراجعة الخبراء. ومن هذهannotations، تم إنشاء TELBench، وهو معيار يضم 1,000 حالة لتحديد الأخطاء بين الاستكشافات الطبيعية، والبحث الفاشل، والافتراضات المؤقتة، والضجيج غير الضار.

علاوة على ذلك، تم اقتراح نظام DRIFT، الذي يعد إطارًا للتحقق يركز على المطالبات، حيث يتتبع ادعاءات الوكلاء ويحقق في دعمها بالأدلة. من خلال تجارب عبر عائلات النماذج وإطارات التدقيق، أظهرت النتائج أن نظام DRIFT يحسن من تحديد الأخطاء ويزيد دقة الأخطاء الأولى بنحو 30 نقطة مئوية.

يوفر هذا العمل رؤية عملية لمستوى موثوقية الوكلاء المعتمدين على البحث العميق، مما يساهم في فهم أعمق لأسباب الأخطاء وكيفية تقليلها في المستقبل.