تتجه البحوث الحديثة نحو تطوير نماذج اللغة الضخمة (Large Language Models) لتعزيز قدراتها على التفكير وحل المسائل المعقدة. ومع ذلك، تبقى خطوة تحسين قدرات التفكير متعددة الخطوات تحديًا كبيرًا. وعلى الرغم من التقدم الذي أحرزته طرق التحسين الحالية، فإنها غالبًا ما تتعامل مع المسارات التحليلية ككل دون التعمق في الخطوات الحاسمة التي تؤثر على النجاح.

في هذا الإطار، تظهر استراتيجية جديدة تُعرف بـ “GPO” (Guided Pivotal Optimization) كحل مبتكر. تركز GPO على عملية التفكير داخل نماذج اللغة الضخمة بشكل عميق، حيث تبدأ بتحديد الخطوة الحاسمة في المسار التحليلي. هذه الخطوة هي نقطة محورية يجب على النموذج المرور بها بعناية من أجل تحقيق النجاح في المسألة المطروحة.

من خلال تقدير وظيفة المزايا، تحدد GPO هذه الخطوة، ثم تقوم بإعادة ضبط سياسات النموذج عند هذه النقطة الحرجة، وذلك لتحسين فعالية التعلم. عبر هذه الاستراتيجية، يستطيع النموذج التعلم بشكل أكثر فعالية من اللحظات المحورية داخل عملية التفكير، مما يؤدي إلى تحسين أداء التفكير.

تثبت التجارب التي أُجريت عبر عدة معايير تحدي أن GPO تعتبر استراتيجية عامة يمكن دمجها مع طرق التحسين المختلفة، مما يُظهر قدرتها على تعزيز الأداء بشكل كبير. وهذا ما يعكس فعالية GPO وجاذبيتها في تحسين قدرات نماذج اللغة الضخمة، حيث تركز على اللحظات الأساسية في عملية التوليد.