في سعي مستمر لتحسين نماذج اللغة، تم تقديم تقنية جديدة تحمل اسم نماذج اللغة المُعتمِدة على الخيارات (Options LLM - OLLM). تُعد هذه التقنية طريقة مبتكرة تستبدل عملية توقع الكلمة التالية المعتمدة في النماذج التقليدية بتشكيلة من الخيارات المتعلمة للكلمة التالية، مما يتيح مزيدًا من التنوع والمرونة في التوقعات.

تكمن فكرة OLLM في استخدام مساحة Latent صغيرة، حيث تتضمن متغيرات غير محسوسة يمكنها تعيين خيارات متعددة محتملة للكلمة التالية. بدلاً من الاكتفاء بالاعتماد على درجات الحرارة أو أساليب العينة التقليدية، يقوم OLLM بتطبيق تنوع مُعتمد بشكل صريح، مما يسمح للنماذج باختيار أو البحث عن الخيارات المناسبة خلال الاستدلال.

تقنيًا، OLLM عبارة عن إضافة خفيفة الوزن تتضمن طبقتين: مُشفّر ومُفكك تشفير قبل رأس الإخراج، مما يسهل دمجه مع أي نموذج تم تدريبه مسبقًا دون الحاجة إلى تغيير كبير في المعلمات. مُطبقًا على نموذج يضم 1.7 مليار معلمة (حيث تم تدريب 1.56% فقط منها)، تم اختبار أداء OLLM على مجموعة بيانات OpenMathReasoning وحققت نتائج تفوق تلك المعايير التقليدية، حيث استطاعت OLLM تحقيق دقة بلغت حوالي 70% عند اختيار المتغيرات بشكل مثالي.

ما يميز OLLM هو تغيير الهيكل الأساسي للنموذج، مما يجعل عملية تحسين المكافآت أكثر كفاءة وفاعلية، حيث ينخفض الانحراف الشائع في النماذج مثل الانتقال بين اللغات أو النتائج غير المنطقية. بالاعتماد على هذا التحسين الهيكلي، يُظهر OLLM تحسنًا ملحوظًا في قابلية التحكم والموثوقية في معالجة المشكلات الرياضية.

إن نتائج OLLM تعكس إمكانية استخدام تعلم سياسات الفضاء الكامن كأحد الاتجاهات الواعدة في تعزيز النماذج الذكية، مما يمهد الطريق لمزيد من الابتكارات في مجال التعلم التعزيزي (Reinforcement Learning) لنماذج اللغة.