في عالم الذكاء الاصطناعي، تعتبر نماذج اللغة (Language Models) من الركائز الأساسية التي تسهم في تعزيز القدرة على التفكير والتفاعل. لكن، تواجه هذه النماذج تحدياً كبيراً يتمثل في كيفية تحسين أوقات الاختبار (Test-Time Scaling) من خلال استغلال موارد الحوسبة لخلق مسارات حل متعددة. هدف هذه الدراسة هو تعزيز الدقة مع تقليل عدد الرموز الناتجة خلال عملية التفكير.

تعتبر الأساليب الموجهة بالبرمجة الاستكشافية (PRM-guided methods) من الحلول الحالية، حيث تعتمد على تقييم السابقات الوسيطة لتوجيه البحث. ومع ذلك، تقتصر معظم تلك الأساليب على الحدود الحالية، مما يؤدي إلى فقدان بعض السابقات التي لا تزال تحتمل تكملات صحيحة.

تقديم مفهوم العودة العشوائية (Stochastic Backtracking) يمثل نقلة نوعية، حيث يسمح بالنظر في الحالات السابقة بدلاً من الاكتفاء بتوسيع الحدود الحالية. ويشمل هذا الابتكار آليات تكاملية مثل اختيار المجموعات الفرعية (Subpool Selection) التي تعزز البحث الموجه بالبرمجة الاستكشافية من خلال اختيار الأفضل من بين السابقات التاريخية، مما يعطيها فرصة لتجاوز المرشحين الذين حصلوا على درجات عالية في الوقت الحالي.

إضافة إلى ذلك، يتم استخدام نموذج مونتي كارلو التسلسلي المعزز (Power Backtrack Sequential Monte Carlo) الذي يوسع عملية إعادة اختيارات نمط SMC لتشمل المجموعات التاريخية، مما يزيد من فرص تحسين الدقة مع عدد أقل من الرموز.

لقد أظهرت النتائج من خلال اختبارات رياضية أن هذه الأساليب تستطيع تحقيق دقة أعلى لكل عدد من الرموز، مقارنة بنماذج تتبع البرمجة الاستكشافية القوية، مما يوضح أن العودة العشوائية عبر مجموعة ثابتة تعد وسيلة فعالة لتحسين التوازن بين الدقة وعدد الرموز المُنتَجة.