في عالم الذكاء الاصطناعي، تعتبر عقبة إمداد المهام (task supply) أحد أكبر التحديات خلال تدريب الوكلاء باستخدام التعلم التعزيزي (Reinforcement Learning - RL). يكمن الأمر في الحاجة المتزايدة للمهام التي تكون صالحة وصعبة بشكل معقول لتدريب النماذج الحالية. لكن ما يحدث عادةً هو أن التوزيعات الثابتة للمهام تشبع بسرعة، فيما يؤدي التوليد الاصطناعي البسيط إلى مهام إما مسهلة جداً، أو مستحيلة، أو غير موضوعة بشكل صحيح.

ومع تقدم نماذج الاستدلال (reasoning models) والتركيز على الوكلاء، أصبح من الضروري تحسين كيفية توليد هذه المهام. وهنا يأتي دور إطار العمل الثوري PROPEL. يتيح هذا الإطار تدريب مولدات المهام لتحسين صلاحية التعلم وفعاليتها من خلال تقليل الحاجة إلى إعادة تقييم الحلول لكل مهمة مرشحة.

بدلاً من الاعتماد على عمليات حل معقدة تستغرق وقتاً طويلاً، يقوم PROPEL بتدريب 'مسبار تفعيل' خفيف الوزن على مجموعة بيانات مُعلمة من المهام المولدة ونتائج الحلول. يمنح هذا المسبار تنبؤات دقيقة حول معدل النجاح المطلوب مما يسهل عملية تحسين المولد من خلال تقليل التقييم إلى تمريرة واحدة فقط.

وفقًا للدراسات، فإن النماذج الكبيرة ومن بينها Qwen تفتح آفاقاً جديدة في مجالات الرياضيات، البرمجة، والهندسة البرمجية، حيث تزيد النسبة المئوية للمهام المولدة التي تصل إلى معدل الحل المستهدف بشكل ملحوظ. فمثلاً، في مجال البرمجة، ارتفعت النسبة من 10.1% إلى 20.0% للنموذج Qwen2.5-3B-Instruct، ومن 5.3% إلى 12.6% للنموذج الأكبر Qwen2.5-7B-Instruct. كما شهدت الهندسة البرمجية تحسناً ملحوظاً أيضاً، حيث سجلت تقدماً في المهام المثالية المنتجة.

هذه النتائج المذهلة لا تمثل فقط خطوة للأمام في استخدام الذكاء الاصطناعي لتدريب الوكلاء، بل تفتح أفقاً جديداً لتحسين الأداء وتوسيع قدرات النماذج في المستقبل. فهل نحن أمام عصر جديد من الذكاء الاصطناعي المدعوم بفهم عميق لطبيعة المهام وتوليدها؟