تعتبر نماذج اللغات الضخمة (LLMs) إحدى أبرز الابتكارات في مجال الذكاء الاصطناعي، وقد تم تحسينها بشكل ملحوظ عبر طرق تدريب جديدة. من أهم هذه الطرق تقنية "OPT*" التي تساعد النماذج على تعزيز التفكير التحليلي خطوة بخطوة، مما يعزز قدرتها على اتخاذ قرارات معقدة في بيئات تحتوي على مجموعة واسعة من الخيارات.

تتعلق هذه التقنية بالتحسين أسلوب البحث، حيث تسعى إلى إيجاد خطط قابلة للتنفيذ ذات قيمة عالية من بين بدائل متعددة. من خلال توفير مصدّق على القابلية evaluator ومُقيّم، تُوسّع هذه التقنية مساحة البحث دون الحاجة إلى إضافة ملصقات بشرية جديدة، مما يجعل عملية التدريب أكثر كفاءة وفاعلية.

تم تقسيم الدراسة إلى نظامين: 1) تحسين السياسة عبر الإنترنت مدعومة بالحلول، والتي تستفيد من حلّالات تعمل كمرجع للقيم في الحالات الجزئية، 2) التعلم المعزز (RL) القائم على البحث في حال عدم توفر هذه الحلول. تتناول النظرية العلاقة بين النجاح في مساحات البحث الكبيرة والمعلومات التي يستخرجها المفكّر لكل وحدة من ميزانية البحث، مما يُبرز أهمية الكفاءة في البحث.

من خلال التجارب، تم تحليل العناصر التي تجعل البحث فعالاً على نظام "OPT*"، وقد أظهرت النتائج أن التدريب على هذه الطريقة يُحسّن بشكلٍ ملحوظ من التفكير التحليلي خطوة بخطوة في النماذج.