في السنوات الأخيرة، أصبحت تقنيات التعلم المعزز (Reinforcement Learning) محور اهتمام كبير في عالم الذكاء الاصطناعي، حيث تسعى هذه التقنيات لتحسين أداء الأنظمة الذكية من خلال التعلم من التجارب السابقة. ولكن، ماذا لو كان بإمكاننا تحسين الكفاءة بشكل أكبر؟ هنا تأتي منصة DUET (Dual-controlled Token Allocation) لتقديم إجابة قوية.

تساهم DUET في تعزيز فعالية التعلم المعزز من خلال تحسين توزيع ميزانية التوكن (token budget) خلال عمليات التدريب. التقليد السابق كان يركز على بعد واحد فقط من أبعاد توزيع الميزانية، ولكن DUET تقدم نهجًا يجمع بين اتخاذ القرار بشأن العروض التي ينبغي تخصيصها لها ومدة كل تجريبة. هذه الاستراتيجية الجديدة لا تساهم فقط في تحسين جودة التفكير (reasoning quality)، بل تسهم أيضًا في تقليل الوقت المستغرق للتدريب.

أظهرت التجارب التي أجريت على نموذج Qwen3-1.7B أن DUET تتفوق على الأساليب التقليدية، محققة نتائج مذهلة رغم استخدامها لنصف ميزانية التوكن. هذا الإنجاز منح DUET سرعة تفوق 1.62 ضعف، مما يجعلها تحليلًا قويًا في مجالات الرياضيات والترميز.

ليس ذلك فحسب، بل أظهرت التجارب أيضًا أن الفجوة بين DUET وأقوى الأساليب التقليدية تتسع عند تطبيق ميزانية ضيقة، مما يدحض المفهوم السائد بأن الأساليب الأكثر كفاءة تفقد جودتها عند تقليل الموارد. يُظهر هذا الإنجاز كيف أن استراتيجيات DUET يمكن أن تحسن بشكل كبير من نوعية الإشارات التعلمية، مما يجعلها أداة قيمة ليس فقط لتسريع التدريب، بل أيضًا لرفع مستوى الأداء.