في عالم الذكاء الاصطناعي، يعد البحث الوكالي (Agentic Search) من المهام المذهلة التي تهدف إلى تدريب الوكلاء على الإعتماد على التفكير المنطقي وإصدار الاستفسارات وتجميع المعلومات المسترجعة للإجابة على أسئلة معقدة. مؤخرًا، تمت تحقيق تقدم كبير في هذا المجال بواسطة تقنيات التعلم المعزز (Reinforcement Learning). ومع ذلك، واجهت الأساليب الحالية مثل Search-R1 تحديات كبيرة، حيث تتعامل باعتبار نظام الاسترجاع أداة ثابتة، مما يؤدي إلى تحسين الوكيل المفكر فقط دون تحسين مكون الاسترجاع، مما يسبب فجوة ملحوظة تصل إلى +26.8% في تحسين F1 النسبي عبر سبع معايير في البحث والتقييم.

مستوحًى من هذه النتائج، يأتي CoSearch ليُحدث ثورة في هذا المجال. يقدم هذا الإطار المبتكر تدريبًا مشتركًا بين وكيل التفكير المتعدد الخطوات ونموذج تصنيف الوثائق التوليدية باستخدام تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization – GRPO). ولكي يتمكن التدريب عبر GRPO من أن يكون فعالًا لمدرج الترتيب الذي يتغير مدخلاته عبر مسارات التفكير، تم إدخال استراتيجية تجميع دلالي تجمع بين الاستفسارات الفرعية وفقًا للتشابه على مستوى الرموز، مما يشكل مجموعات تحسين صحيحة دون الحاجة إلى عملية متعددة.

علاوة على ذلك، تم تصميم مكافأة مركبة تجمع بين مؤشرات جودة الترتيب والتغذية الاسترجاعية على مستوى النتائج للرحلة، مما يوفر للمدرج الترتيب إشارات تعلم فورية وطويلة الأمد. أظهرت التجارب على سبعة معايير للبحث الأحادي والمتعدد الخطوات تحسنًا متواصلًا مقارنة بالأسس القوية، مع دراسات إلغاء تؤكد فعالية كل خيار تصميم. تعزز نتائجنا من فكرة أن التدريب المشترك بين وكيل التفكير ونظام الاسترجاع ليس فقط ممكنًا ولكنه أيضًا شديد الأداء، مما يشير إلى عنصر رئيسي في تطوير وكلاء البحث في المستقبل.