تعتبر تقنية التعلم المعزز (Reinforcement Learning) واحدة من الأدوات الفعالة في تعزيز قدرات التفكير والتحليل في النماذج اللغوية. ومع ذلك، يواجه الباحثون تحديات جسيمة عند الاعتماد على المكافآت النادرة (Sparse Rewards)، مما يتسبب في كفاءة عينة منخفضة بسبب الحاجة للتنقل في مساحات بحث كبيرة دون الحصول على ملاحظات كافية.

عادةً ما تهدف نماذج التعلم المنهجي (Curriculum Learning) إلى معالجة هذه المشكلة من خلال تنظيم البيانات بناءً على تعقيد المهام. ولكن، تناولت الدراسات السابقة مجموعات بيانات صغيرة، مما أدى إلى صعوبة تطبيق نفس الأساليب في البيئات المعقدة المعاصرة التي تعتمد على تدريب النماذج الكبيرة.

من هنا، تأتي تقنية Goldilocks بفكرة مبتكرة، حيث تعتمد على استراتيجية جديدة لتعيين الأسئلة حسب مستوى صعوبتها، باستخدام نموذج تعليمي مخصص. يقوم النموذج المعلم باختيار أسئلة تتناسب تماماً مع قدرات النموذج المتعلم؛ أي أن تكون الأسئلة ليست سهلة جدًا ولا صعبة جدًا، وفقًا لمبدأ Goldilocks.

تستفيد هذه الاستراتيجية من أداء النموذج المتعلم على العينات المعروضة، مما يسمح للنموذج المعلم بتكييف الأسئلة حسب تطور قدرات النموذج المتعلم. وقد أظهرت النتائج، عند استخدام مجموعة بيانات OpenMathReasoning، أن تقنية Goldilocks تحسن من أداء النماذج عند التدريب باستخدام تحديث GRPO (Generalized Reinforcement Policy Optimization) ضمن نفس ميزانية الحساب.

تعتبر Goldilocks طريقة ثورية لتعديل تجارب التعلم في النماذج اللغوية، وتفتح آفاق جديدة لتحقيق أداء أعلى في مواجهة التحديات المعقدة.