أحدثت التطورات الأخيرة في وكلاء البحث العميق (Deep Research Agents - DRAs) ثورة في مجالات اكتشاف المعرفة وحل المشكلات تلقائياً. يركز الكثير من الجهود الحالية على تعزيز قدرات وكيل البحث من خلال تدريب ما بعد النموذج. لكن في هذا السياق، يقدم الباحثون بمنظور جديد: تطوير الذات للوكيل من خلال التحقق المستمر من نتائج النموذج، معتمدين على معايير مصممة بعناية.

يؤدي هذا النهج الجديد إلى ما يسمى بتوسيع نطاق التحقق في وقت الاستدلال (Inference-Time Scaling of Verification)، حيث يتمكن الوكيل من تحسين أدائه من خلال تقييم إجاباته الناتجة واستنتاج ملاحظات لتطوير مستمر. يعتمد الباحثون في هذا الإطار على تصنيف دقيق لفشل الوكلاء، بما يسهل تصنيف الأخطاء إلى خمس فئات رئيسية واثنتي عشرة فئة فرعية.

من أبرز مخرجات هذا البحث هو تطوير أداة تسمى البيرفير (DeepVerifier)، والتي تعمل على تعزيز نتائج التحقق باستخدام معايير محددة. وقد أثبتت هذه الأداة فعاليتها من خلال تجاوز المقاييس التقييمية التقليدية بنسبة تتراوح بين 12% إلى 48% في نتائج تقويم F1.

من المثير أن DeepVerifier يتكامل كوحدة قابلة للإدماج خلال مرحلة الاستدلال، حيث يقوم بإنتاج ملاحظات مفصلة تعتمد على المعايير، وتُعاد تغذيتها للوكيل لتسهيل تحسين ردوده دون الحاجة لأي تدريب إضافي. وقد أدى هذا التوسع في وقت الاستدلال إلى تحقيق زيادات تتراوح بين 8% إلى 11% في دقة الاستجابات في مجموعات بيانات صعبة مثل GAIA وXBench-DeepSearch.

أخيرًا، لدعم تعزيز المصادر المفتوحة، تم إصدار مجموعة بيانات DeepVerifier-4K، التي تحتوي على 4,646 خطوة عالية الجودة للوكيل تركز على التحقق من DRAs. تبرز هذه الأمثلة أهمية التأمل والنقد الذاتي، مما يمكن النماذج مفتوحة المصدر من تطوير قدرات تحقق قوية.