شهدت تقنية الوكلاء البحثيين القائمين على نماذج اللغات الضخمة (Large Language Models - LLM) ثورة ملحوظة في قدرة معالجة المهام اللغوية المعقدة. ولقد أثبتت التجارب أنهم يقومون بإجراء عدة جولات من التفكير واسترجاع المعلومات، لكن معظم الأنظمة الحالية تعتمد على محركات استرجاع معلومات تقليدية تأخذ استعلامات باستخدام كلمات مفتاحية أو لغة طبيعية وتعيد قائمة مرتبة من الوثائق.

إليك حيث يدخل GrepSeek حلبة المنافسة كوكيل بحث مبتكر يعتمد على مفهوم جديد وهو اعتبار مجموعة البيانات (corpus) كبيئة بحثية، حيث يقوم الوكيل بإصدار أوامر تنفيذية للبحث عن الأدلة. يقدم GrepSeek مفهوم وكيل بحث متفاعل مع النصوص (Direct Corpus Interaction - DCI) يقوم بتدريب وكيل بحث مدمج للعثور على الأدلة، وتصفيتها، وتجميعها من مجموعات نصية ضخمة.

للتغلب على عدم الاستقرار في سلوك التعلم مباشرة باستخدام التعلم المعزز (Reinforcement Learning) على مجموعات نصية كبيرة، يقترح GrepSeek خط أنابيب تدريبي من مرحلتين. في المرحلة الأولى، يتم إنشاء مجموعة بيانات البداية الباردة باستخدام مدرب واعٍ بالإجابات (Answer-aware Tutor) ومخطط أعمى للإجابات (Answer-blind Planner) لتوليد مسارات بحث موثقة ومؤكدة. بعد ذلك، يتم تحسين السياسات باستخدام تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization - GRPO)، مما يمكن الوكيل من تحسين سلوك البحث الموجه نحو المهام من خلال التفاعل المباشر مع مجموعة البيانات.

لتوسيع نطاق DCI وجعله عمليًا، يتم استخدام محرك تنفيذ متوازي يحافظ على المعاني (Semantics-preserving Sharded-parallel Execution Engine) والذي يعزز من سرعة استرجاع الأوامر النصية حتى سبعة أضعاف، مع الحفاظ على التكافؤ التام مع التنفيذ التسلسلي. تظهر التجارب عبر سبعة معايير مفتوحة للإجابة على الأسئلة أن GrepSeek يحقق أعلى مستويات أدائية من حيث مستوى الرموز (Token-level) في مؤشرات نجاح مثل $F_1$ وExact Match.

لكن التجارب أظهرت أيضًا قيود التفاعل القائم فقط على العوامل السطحية عند التعامل مع استعلامات ذات تنوع كبير في الشكل، مما يشير إلى أن DCI يمكن أن يكون نهجًا عمليًا وتنافسيًا لوكلاء البحث في العالم الحقيقي، مكملًا للطرق التقليدية لاسترجاع المعلومات.