في عالم الذكاء الاصطناعي، يبرز التعلم المعزز (Reinforcement Learning - RL) كأحد أهم أساليب تدريب الوكلاء المعتمدين على نماذج اللغات الضخمة (Large Language Models). إلا أن توسيع قدرات التعلم المعزز للوكلاء في الأبحاث العميقة يواجه تحديات كبيرة. هذه التحديات تتعلق بجودة البيانات المدخلة، حيث إن استخدام البيانات الاصطناعية لا يكفي لتحفيز قدرات البحث في العالم الحقيقي، بينما الاعتماد على بيانات العالم الحقيقي أثناء التدريب على التعلم المعزز يؤدي إلى عدم الاستقرار وارتفاع التكلفة، مما يحد من قابلية توسيع نطاق التعلم المعزز.

إليكم الحل الثوري: LiteResearcher! هذا الإطار الفريد للتدريب يقوم بإنشاء عالم افتراضي خفيف يعكس ديناميكيات البحث الواقعي، مما يمكّننا من تطوير وصفة تدريب مستمرة تحسن الأداء. نتيجة لهذا الابتكار، تمكّن وكيل بحث صغير من التفوق على النماذج الكبيرة المفتوحة المصدر والتجارية مثل Tongyi DeepResearch وClaude-4.5 Sonnet.

وفي اختبارات الأداء مثل GAIA وXbench، حقق نظام LiteResearcher-4B نتائج رائدة، حيث سجل 71.3% و78.0% على التوالي، مما يبرز أهمية التدريب القابل للتطوير للوكلاء في الأبحاث العميقة. هذا الإنجاز يؤكد أن التحسين على مستوى التعلم المعزز هو المفتاح لفتح آفاق جديدة في عالم الأبحاث العميقة.