أظهرت الوكالات البحثية العميقة فاعليتها في تعزيز نماذج اللغات الضخمة (Large Language Models - LLMs) من خلال استرجاع المعرفة الخارجية أثناء عمليات الاستدلال متعددة الخطوات. لكن الطرق الحالية تواجه تحديات، حيث تقوم بتوليد استفسار واحد فقط لكل خطوة استدلال، مما يحد من نطاق المعلومات المسترجعة ويضفي ضوضاء عالية. هذا الأمر قد ينتج عنه انخفاض في النسبة بين الإشارة والضوضاء (Signal-to-Noise Ratio - SNR) خلال البحث، مما يؤدي إلى تدهور دقة الاستدلال وظهور خطوات استدلال غير ضرورية.

في ورقتنا البحثية الجديدة، نقدم نظام MultiSearch، وهو إطار عمل يعتمد على التعلم المعزز (Reinforcement Learning - RL) الذي يتجاوز هذه القيود من خلال استرجاع المعلومات عبر استفسارات متعددة ودمجها بشكل صريح. في كل خطوة استدلال، يقوم MultiSearch بإنشاء استفسارات من وجهات نظر متعددة واسترجاع المعلومات الخارجية بشكل متزامن، موسعًا نطاق المعلومات ذات الصلة ومقللاً الاعتماد على نتائج الاسترجاع الفردية.

بعد استرجاع المعلومات، يقوم الوكيل بتجميع وتنقيح البيانات خلال عملية الدمج، مما يُحسن نسبة الإشارة إلى الضوضاء (SNR) ويضمن استدلالًا أدق. علاوة على ذلك، اقترحنا إطارًا للتعلم المعزز مع تصميم مكافآت متعدد العمليات لتحسين عمل الوكلاء لكل من استرجاع الاستفسارات المتعددة ودمج المعلومات.

أظهرت التجارب الواسعة على سبع معايير أن MultiSearch يتفوق على الأساليب التقليدية، مما يُعزز نسبة الإشارة إلى الضوضاء ويُحسن أداء الاستدلال في المهام المتعلقة بالإجابة على الأسئلة. إن هذا الابتكار ليس مجرد تقدم تقني، بل خطوة نحو مستقبل أكثر دقة وتفاعلية في مجال الذكاء الاصطناعي.