في عالم الذكاء الاصطناعي، تُعتبر النماذج اللغوية الكبيرة (LLMs) واحدة من أكثر التقنيات تقدماً، ولكنها ليست خالية من التحديات. فبالرغم من أنها توفر استجابات دقيقة عند تلقيها تحفيزات تتطابق مع بيانات التدريب، إلا أن أي تحوير بسيط في الأسلوب أو الصياغة يمكن أن يؤدي إلى فشل مفاجئ، خصوصاً في مسائل تتطلب استدلال متعدد الخطوات.

لتجاوز هذه العقبة، تظهر استراتيجية جديدة تعرف بتحسين الرموز بشكل موثوق (DRTO)، التي تجمع بين التعلم المعزز من الملاحظات البشرية (RLHF) مع التحسين المدروس (DRO). تركز هذه الطريقة على تحديد مجموعات الشك بمستويات الفقر المتباين، مما يعزز الأداء خلال تحسين السياسات.

تُظهر بحوثنا أن DRTO تعزز من التناسق والاستجابة تحت التحولات التوزيعية في مجموعة من مهام الاستدلال، حيث تحقق تحسينات ملحوظة تصل إلى 4.4 نقاط مئوية في اختبار MATH-500 و2.7 نقاط مئوية في LiveCodeBench مقارنة بأساليب التحسين القياسية.

تمثل هذه النتائج خطوة مهمة نحو تطوير نماذج ذكاء اصطناعي أكثر موثوقية وقادرة على مواجه التحولات اللغوية المتنوعة، مما يعد بمستقبل واعد للذكاء الاصطناعي في العديد من التطبيقات.