في عالم الذكاء الاصطناعي، أصبحت نماذج التفكير الكبيرة (Large Reasoning Models - LRMs) موضوعًا للبحث المكثف، إذ تواجه تحديات تتمثل في الإفراط في التفكير. وهذا يعني أن هذه النماذج قد تنتج متواليات تفكير طويلة ومعقدة مما يزيد من تكلفة الاستدلال ويشوش عملية التفكير الأساسية. في هذا المقال، نستعرض دراسة جديدة تُعيد التفكير في الإفراط في التفكير من خلال عدسة الكفاءة الدلالية.

تسعى الدراسة إلى تحليل الازدواجية ضمن متواليات التفكير، حيث تم تقسيمها إلى شكلين مختلفين:
1. **الازدواجية الداخلية**: التي تتعلق بالتوقف المعلوماتي قبل الوصول إلى الإجابة الصحيحة الأولى.
2. **الازدواجية الخارجية**: التي تشير إلى الاستمرار غير الضروري بعد الحصول على الإجابة الصحيحة الأولى.

بناءً على هذا التحليل، تقترح الدراسة إطارًا تعليمياً مزدوج العقوبة يعتمد على التعلم التعزيزي، حيث يقوم بتحسين تقدم التفكير وسلوك الانتهاء بشكل منفصل. تستخدم المقياس الدلالي المتحرك لعقابSegments التفكير المنخفض التقدم، بينما يقيد المقياس الطبيعي للازدواجية الخارجية الاستمرار بعد الإجابة.

أظهرت التجارب على مجموعات بيانات مثل GSM8K وMATH500 وAIME24 نتائج مثيرة، حيث تمكنت الطرق الجديدة من تقليل متوسط طول التفكير بنسبة تصل إلى 41.3% بين النماذج.

ليس هذا فحسب، بل أيضاً تم الحفاظ على دقة تنافسية مع تحقيق أفضل نقاط الكفاءة والدقة بين جميع القواعد المقيمة. الأهم من ذلك، تكشف التحليلات أن الازدواجية الخارجية يمكن إزالتها إلى حد كبير مع فقدان أداء طفيف، بينما يتطلب ضغط الازدواجية الداخلية تجاربات دقيقة بين الدقة والكفاءة.

تشير هذه النتائج إلى أن ضغط متواليات التفكير يجب أن يركز على الكفاءة الدلالية بدلاً من مجرد طول السلسلة، مما يفتح أبوابًا لتحسين النماذج وجعلها أكثر وضوحًا وكفاءة.