تشهد نماذج اللغة الكبيرة (LLMs) تحولات مذهلة في قدرتها على التفكير، لكن في بعض الأحيان تعاني هذه النماذج من عدم توافق في أنماط التفكير المطلوب لكل سيناريو. يقوم التفكير الرياضي غالباً على منطق داخلي لحل المشكلات المغلقة في رد واحد. بينما يعتمد التفكير العقلي على التفاعل المتعدد الأدوار مع البيئات الخارجية، مما يتطلب الدمج بين التفكير والفعل.

تنبثق هنا أهمية نموذج M2A الذي يسعى لدمج التفكير الرياضي والعقلي بإبداع. بدلاً من أن تعتمد على أنماط تفكير سطحية تحت التدريب المشترك، يعمل M2A مباشرة في فضاء المعلمات، حيث يحدد الفضاء الفرعي الخاص بميزات سلوك الوكيل، ويقوم بدمج تمثيل التفكير الرياضي فقط في المساحة المستبعدة، مما يعزز قدرات التفكير في اتجاهات لا تؤثر على سلوك الوكيل.

يتميز نموذج M2A بأنه لا يتطلب تحديثات تدرج إضافية كما هو الحال في تقنيات التعليم الموجه (SFT) أو التعلم المعزز (RL)، ولكنه يسمح بتحكم مرن في عمق التفكير من خلال معامل الدمج. وقد أظهرت التجارب في سيناريوهات برمجة واقعية مدى فعالية هذا النموذج في تعزيز عمق التفكير العقلي، مما أدى إلى تحسين ملحوظ في الأداء.

عند تطبيقه على نموذج Qwen3-8B المحسن، زادت نسبة الحلول المعتمدة في SWE-Bench Verified من 44.0% إلى 51.2% دون الحاجة إلى إعادة تدريب النموذج. هذا التطور يمثل خطوة هامة نحو تحقيق تكامل أفضل بين أنماط التفكير المختلفة في الذكاء الاصطناعي.