في عصر يتطور فيه الذكاء الاصطناعي بوتيرة متسارعة، يُعتبر تقييم وكلاء البحث (Search Agents) واحدة من أبرز التحديات التي تواجه الباحثين في هذا المجال. تمثل نماذج اللغات الضخمة (Large Language Models) الأداة الأساسية التي نستخدمها لمواجهة مشكلات العالم المفتوح والبحث الزمني والمشكلات الطويلة، ولكن كيفية تقييم قدرتها على البحث تظل معضلة.

تواجهنا تحديات كبيرة عند تقييم هؤلاء الوكلاء؛ أولاً، إن إنشاء معايير بحث عميقة وعالية الجودة يُعد مكلفًا للغاية، في حين أن الاعتماد على بيانات اصطناعية غير موثوقة يؤدي إلى نتائج غير دقيقة. ثانياً، تحديات العمر الافتراضي للمعايير الثابتة تتسبب في تقادم النتائج، فمع تطور المعلومات على الإنترنت، تصبح الاستعلامات المعقدة تعد مهام استرجاع بسيطة بسبب تزايد شعبية المواضيع والشيفرات الزمنية.

علاوة على ذلك، فإن الغموض في النسبة، حيث يتفوق أداء الوكيل غالبًا بفضل الذاكرة البارامترية بدلاً من البحث الفعلي وقدرات التفكير، يمثل عقبة إضافية. وأخيراً، فإن الاعتماد على محركات بحث تجارية معينة يُدخل متغيرات تحتمل أن تعرقل قابلية النتائج للتكرار.

لمواجهة هذه التحديات، نقترح إطارًا مبتكرًا يسمى "Mind-ParaWorld" لتقييم وكلاء البحث في عالم متوازي. يتمثل النهج في أخذ أسماء كيانات من العالم الحقيقي وإنشاء سيناريوهات وأسئلة تتجاوز حدود نموذج الذاكرة. يقوم نموذج "ParaWorld Law Model" بتوليد مجموعة من الحقائق الأساسية الفريدة لكل سؤال. خلال عملية التقييم، بدلاً من استرجاع النتائج الحقيقية، يتفاعل الوكيل مع نموذج "ParaWorld Engine Model" الذي يولد نتائج بحث ديناميكية موضوعة على حقائق أساسية غير قابلة للانتهاك.

لقد قمنا بإصدار "MPW-Bench"، وهو معيار تفاعلي يغطي 19 مجالًا و1608 حالة. ومن خلال التجارب في ثلاث بيئات تقييم، نجد أن وكلاء البحث يظهرون قوة في تجميع الأدلة حينما تكون المعلومات كاملة، لكن أدائهم يظل محدودًا ليس فقط بعملية جمع المعلومات وتغطيتها في بيئات البحث غير المألوفة، وإنما أيضًا بمدى موثوقية حكمهم على كفاية الأدلة وقرارات التوقف.