في عالم الذكاء الاصطناعي الحديث، تلعب المعايير العامة (public benchmarks) دورًا حاسمًا في تقييم استراتيجيات التفكير لدى نماذج اللغات الضخمة (Large Language Models). ولكن مع ظهور وكلاء البحث العميق (deep research agents) الذين يعتمدون على بحث نشط في الإنترنت أثناء عملية الاستدلال، تتشكل مجموعة جديدة من التحديات.

تظهر الأبحاث الجديدة وجود ظاهرة تسمى تلوث الوقت البحثي (Search-Time Contamination - STC)، حيث يتمكن الوكلاء من استرجاع بيانات إعدادات المعايير العامة، وسياق الأسئلة، وحتى الإجابات الصحيحة من خلال البحث على الإنترنت. هذا الوضع يؤدي إلى تجاوز reasoning المقصود ويعزز الأداء المُقاس، مما قد يؤدي إلى نتائج مضللة.

حللت الدراسة ثلاثة أنواع من التلوث، تتراوح بين تسرب بيانات المعايير العامة، تسرب سياق الأسئلة، والإجابات الصريحة. تم تطوير خوارزميات لاكتشاف هذه الأنواع وقياس تأثيرها على أداء الوكلاء الذكيين. ومن خلال تقييم عدة وكلاء ذكيين حديثين على ست معايير عامة، وجدت الدراسة أن تلوث الوقت البحثي أمر شائع ويمكن أن يضخم الأداء بنسبة تصل إلى 4%.

تظهر النتائج أن التقييمات الحالية قد تبالغ في تقدير القدرات الحقيقية للتفكير. لذلك، تُوصي الدراسة بتطبيق ممارسات واعية للتلوث، مثل استخدام بيئات منفصلة (isolated sandboxes)، وتوفير مسارات بحث شفافة، وتحكم في الوصول إلى المعايير العامة.