في عالم الاكتشافات العلمية المتسارع، تكتسب نماذج اللغات الكبيرة (Large Language Models) أهمية متزايدة، حيث تُستخدم بشكل فعال لتوليد الفرضيات، واقتراح الحلول، وتنفيذ الأنظمة، وتحسينها بشكل دوري. تكون عملية التقييم في صميم تلك الحلقات التجريبية حيث تتضمن جمع التغذية الراجعة حول الحلول المقترحة باستخدام أنظمة التحقق أو المحاكاة أو دالات التقييم الخاصة بالمهام.

برغم من تسليط الضوء على أهمية التقييم في الأبحاث السابقة، إلا أن القليل من الدراسات تناولت بعمق كيفية توسيع عمليات الاكتشاف المدفوعة بالتقييم بشكل فعّال ومنهجي. هنا يأتي دور البحث الجديد الذي يقدم إطار عمل مبتكر يُعرف باسم Simple Test-time Evaluation-driven Scaling (SimpleTES)، والذي يجمع بين الاستكشاف المتوازي، وتنقيح التغذية الراجعة، والاختيار المحلي.

يكشف هذا الإطار عن تحسينات كبيرة يمكن تحقيقها من خلال توسيع حلقات الاكتشاف المدفوعة بالتقييم. فقد أظهرت النتائج عبر 21 مشكلة علمية متباينة، أن SimpleTES يكتشف حلولًا هي الأفضل في فئتها باستخدام نماذج gpt-oss، ويتفوق بشكل مستمر على النماذج القائمة وأنظمة التحسين المعقدة.

من بين النتائج المثيرة، تم تسريع خوارزمية LASSO الشهيرة بأكثر من الضعف، وتصميم سياسات توجيه دوائر كوانتية تقلل من تكلفة البوابات بنسبة 24.5%، واكتشاف بناء جديد يحتل المرتبة الأولى في أبسط حالات الأرباع المشتركة.

وبالإضافة إلى الاكتشافات الرائعة، ينتج SimpleTES سجلات تاريخية على مستوى المسار، مما يوفر إشرافًا طبيعيًا على التعلم المدفوع بالتغذية الراجعة. فعندما يتم إعادة تدريب النماذج على المسارات الناجحة، لا تحسن النماذج كفاءتها في المشكلات المعروفة فحسب، بل تنجح أيضًا في التعميم على المشكلات المجهولة، واكتشاف حلول لعناصر باتت غير قادرة على اكتشافها باستخدام نماذج قاعدة.

بناءً على تلك النتائج، يُثبت توسيع حلقات الاكتشاف المدفوعة بالتقييم كعنصر مركزي في تعزيز اكتشافات العلوم المدفوعة بنماذج اللغة الكبيرة، ويُقدم إطار عمل بسيط ولكنه عملي لتحقيق تلك النجاحات.