تعد مشكلة فشل وكلاء البحث العميق (Deep Research Agents) تحديًا حيويًا في مجال الذكاء الاصطناعي. على الرغم من الجهود المبذولة لتطوير نماذج دقيقة، إلا أن الهلوسات (Hallucinations) التي تظهر في مسارات البحث تبقى مشكلة تؤثر بشكل كبير على النتائج. في سياق دراسة جديدة، تم اقتراح طريقة تقييم جديدة تركز على العمليات بدلاً من النتائج النهائية.

يقدم هذا البحث تصنيفًا جديدًا يُعرف باسم تصنيف PING، والذي يقسم الهلوسات إلى أربع فئات متميزة:
1. **انتشار الهلوسة (Propagation)**: تتجلى عندما تتراكم الأخطاء.
2. **نية التوجه (Intent)**: حيث تفتقر النماذج إلى الفهم الصحيح للسياق.
3. **الضوضاء المحفزة (Noise-induced)**: الناتجة عن الضغط الناتج عن البيانات الضوضائية.
4. **التأسيس (Grounding)**: عندما تكون الانطلاقات مرتبطة بشكل غير صحيح بالواقع.

يعتمد الباحثون على هذا التصنيف لتطوير إطار تقييم مفصل يقوم بتفكيك العمليات إلى خطوات دقيقة للتحقق الدقيق. ولتسليط الضوء على مشكلات الهلوسة، تم إعداد مجموعة بيانات جديدة تحت اسم "DeepHalluBench" تشمل 100 مهمة معرضة للهلوسة.

أظهرت التجارب أن جميع النماذج التي تم اختبارها لا تزال تعاني من فجوات موثوقية كبيرة، مما يشير إلى وجود عجز نظامي مستمر. يتطلب الأمر فهمًا عميقًا لآلية انتشار الهلوسة والتحيزات المعرفية للتغلب على هذه التحديات.

أخيرًا، يمكن الوصول إلى الشيفرات والبيانات المتعلقة بالبحث عبر: GitHub.