شهدت نماذج اللغة الكبيرة (Large Language Models) تقدمًا هائلًا في الأدوات والآليات التي تعتمد عليها لتحقيق دقة عالية في نتائجها. ومع ذلك، كانت هذه النماذج تعاني من استهلاك غير فعال للموارد خلال عملية التفكير، مما يتطلب حلولاً مبتكرة لتحسين الأداء.

في هذا السياق، قدم الباحثون تقنية جديدة تُعرف باسم Agentic Chain-of-Thought Steering (ACTS)، والتي تهدف إلى تحسين عملية التفكير عن طريق تحكم ديناميكي يتوافق مع الميزانية المتاحة.

تعتمد ACTS على نموذج يعتمد على عملية اتخاذ القرار ماركوف (Markov decision process)، حيث يقوم وكيل تحكم (controller agent) بتوجيه عملية التفكير خلال فترة الاستدلال. في كل خطوة، يقوم الوكيل بمراقبة المسار الفكري المتبع والميزانية المتبقية، ثم يصدر إجراء توجيه يتضمن استراتيجية تفكير وجملة توجيهية تشرع في الخطوة التالية.

هذه العملية تتيح التحكم الاستراتيجي أثناء التفكير بكفاءة، مع الحفاظ على استمرارية الجيل الفكرى للنموذج. وقد تم تحسين وكيل التحكم عبر التعلم التعزيزي باستخدام تنسيق مكافآت متعلّقة بالميزانية.

تثبت التجارب التي أجريت على مجموعة متنوعة من المعايير أن ACTS يمكن أن تحقق أداءً مشابهًا للأداء الكلي في التفكير، مع توفير كبير في استهلاك الرموز، مما يمكن من تحقيق توازن دقيق بين الدقة والكفاءة في نماذج التفكير المختلفة.

إذا كنت مهتمًا بالتفاصيل الفنية، يمكنك زيارة الكود المتوفر على GitHub [GitHub Repository]. هل تتخيل كيف ستشكل هذه التقنية مستقبل النماذج اللغوية؟