تعتبر القدرة على التفكير في السياقات الطويلة (Long-context reasoning) من العناصر الأساسية في نماذج اللغة الضخمة (Large Language Models)، خاصة عندما تُستخدم كوكيل مستقل يتطلب منه تحليل مسارات طويلة. وقد أصبح التعلم المعزز (Reinforcement Learning) في الآونة الأخيرة أحد أبرز الأساليب لتحسين هذه القدرة. لكن معظم الأبحاث السابقة كانت تركز على هندسة المكافآت (Reward Engineering) بينما ظلت بيانات التدريب المتنوعة نادرة.

أخذت الدراسة الجديدة خطوة جريئة من منظور مركزي حول البيانات، مشيرةً إلى أن وصفة بيانات بسيطة لكنها فعالة بمفردها، إلى جانب إعداد GRPO المبني على النتيجة، يمكن أن تؤدي إلى تحسينات ملحوظة في التفكير ضمن السياقات الطويلة. تستهدف هذه الوصفة ثلاث عائلات مهام متكاملة هي: الاسترجاع (Retrieval)، ودمج الأدلة المتعددة (Multi-evidence synthesis)، والتفكير (Reasoning). وقد تم بناء وتجميع ثمانية مجموعات بيانات تحتوي على حوالي 14,000 مثال.

أظهرت التجارب على ثلاثة نماذج (Qwen3-4B/8B/30B-A3B) زيادة متوسطة تصل إلى 7.2 و3.2 و6.4 نقاط عبر سبع معايير طويلة المدى، متجاوزةً مجموعات تدريب التعلم المعزز السابقة. كما أثبتنا أن هذه المكاسب يمكن أن تُعزز أداء المهام الوكيلة، حيث أدى الاستمرار في تدريب التعلم المعزز على نموذج مُعدل باستخدام وصفتنا للبيانات إلى تحسين أداء GAIA بمقدار 4.8 نقطة وBrowseComp بمقدار 7.0 نقاط.

سيتم إطلاق مجموعات البيانات هذه لتسهيل الأبحاث المستقبلية، مما يمثل خطوة هامة نحو تعزيز جهود البحث في هذا المجال.