في عالم الذكاء الاصطناعي، تعد نماذج اللغات الضخمة (Large Language Models) من الأدوات الثورية التي تلعب دوراً محورياً في تطوير تطبيقات متعددة. ومع ذلك، تظهر مشكلة هامة تُعرف بالفجوة بين التدريب والاستدلال (Training-Inference Mismatch) في أنظمة تعلم التعزيز (Reinforcement Learning). في هذه الدراسة، نسلط الضوء على التحديات التي تبرز من هذه الفجوة، حيث تؤدي الفروق في التنفيذ بين توليد النماذج (Rollout Generation) وتحسين السياسات (Policy Optimization) إلى اختلافات في قيم التوكنز، مما يسبب تأثيرات سلبية على النجاحات المرجوة.

ركزت الدراسة على عزل هذه الفجوة ضمن إعداد تشخيصي مُحدد conocido بـ VeXact، حيث أظهرت أنه حتى الفروق الرقمية الصغيرة على مستوى التوكن قد تكون كافية للتسبب في انهيار التدريب. هذه النتائج تشير بشكل واضح إلى أن الفجوة ليست مجرد ضوضاء رقمية بسيطة، بل هي اضطراب على مستوى النظام ينبغي اعتبارها عاملاً رئيسياً عند تحليل استقرار نماذج اللغات الضخمة.

لتجاوز هذه التحديات، تم التعرف على مجموعة من الحلول التي قد تقلل من تأثير هذه الفجوة، مما يفتح آفاق جديدة لتحسين استقرار أنظمة تعلم التعزيز في نماذج اللغات. فعلاً، يتطلب الأمر اهتماماً أكبر بدراسة هذا الموضوع لتحسين أداء هذه التكنولوجيا المتطورة.