في عالم الذكاء الاصطناعي المتطور، تم إدخال مفهوم جديد يُعرف بالاستدلال الكامن (Latent Reasoning) إلى نماذج اللغات الضخمة (Large Language Models) بهدف استغلال المعلومات الغنية الموجودة ضمن فضاء مستمر. ولكن، كانت هذه الطرق تواجه تحديًا كبيرًا، حيث انعدمت العشوائية في عملية التقييم مما أدى إلى تقليص القدرة على اكتشاف طرق استدلال متنوعة.

في محاولة لسد هذه الفجوة، تم إدخال عشوائية قابلة للتحكم في عملية الاستدلال، وذلك عن طريق استخدام تقنية Gumbel-Softmax. هذه الخطوة ليست مجرد تحسين، بل تعيد إلى نماذج اللغات الضخمة القدرة الاستكشافية التي كانت تفتقر إليها، وتعزز من توافقها مع التعلم المعزز (Reinforcement Learning).

وبناءً على ذلك، تم اقتراح إطار عمل جديد يُدعى تحسين السياسات الاستدلالية الكامنة (Latent Reasoning Policy Optimization) والمعروف اختصارًا بـ LEPO. يمتاز هذا الإطار بتطبيق التعلم المعزز مباشرة على التمثيلات الكامنة المستمرة. خلال مرحلة التقييم، تحافظ LEPO على العشوائية لتفعيل عمليات اختيار مسارات متنوعة، بينما في مرحلة التحسين، تقوم بإنشاء تقدير تدريجي موحد لكل من التمثيلات الكامنة والرموز المنفصلة.

أظهرت التجارب الشاملة أن LEPO يتفوق بشكل كبير على الأساليب الحالية في التعلم المعزز لكل من الاستدلال المنفصل والكمون، مما يجعلها خطوة فارقة في تحسين قدرة الذكاء الاصطناعي على معالجة المعلومات بكفاءة.