مع تطور نماذج التفكير الكبيرة (Large Reasoning Models) وتفوقها الملحوظ في اللغة الإنجليزية، تواجه هذه النماذج تحديًا كبيرًا عندما يتعلق الأمر بالتفكير بلغة السؤال، وهو ما يُعرف بمشكلة انهيار اللغة. لحل هذه المعادلة المُعقدة، تم طرح تقنية جديدة تُعرف بـ AdaMame، وهي وصفة تدريب مبتكرة تهدف إلى تحسين التفكير الرياضي في بيئات متعددة اللغات.

تعمل AdaMame على تجاوز القيود التقليدية التي تفرضها طرق التعلم المعزز (Reinforcement Learning)، حيث غالباً ما تؤدي تلك الطرق إلى إضافة مكافأة ثنائية للغة، لكن مع تكاليف تتعلق بالدقة وتبديل اللغات بشكل مفرط. تتكون عملية التدريب في AdaMame من مرحلتين، الأولى هي مرحلة التعليم الموجه (SFT) حيث تتم تحسين نماذج النطق بشكل طبيعي عبر خمس لغات، مما يدل على قوة التفكير المتعدد اللغات.

أما المرحلة الثانية، فتتضمن استخدام بنية جديدة تُسمى AdaMame-GRPO، وهي تعديل على تقنية تحسين السياسة النسبية الجماعية (Group Relative Policy Optimization). في هذه المرحلة، يتم تعزيز عامل المحاذاة المستند إلى الطلب بشكل تدريجي خلال التدريب، مما يساعد النموذج على استكشاف لغات تفكير متنوعة قبل أن يستقر على اللغة المستخدمة في السؤال.

تم تقييم AdaMame عبر مجموعتين من المعايير، ونماذج تفكير متعددة، و12 لغة، وأظهر أداءً متميزًا يمكن اعتباره الأمثل من حيث دقة التفكير، وموثوقية اللغة، وكفاءة استخدام الرموز. النتائج كانت مثيرة للإعجاب، خاصة على اللغات ذات الموارد الأقل، مما يفتح آفاقًا جديدة في عالم البحث والتطوير في الذكاء الاصطناعي.

في النهاية، تعتبر تقنية AdaMame خطوة نوعية في تقديم حلول لمشكلات حقيقية تواجهها نماذج التفكير الرياضي، مما يرفع سقف التوقعات لمستقبل الذكاء الاصطناعي في جميع أنحاء العالم.