تشهد مجالات الذكاء الاصطناعي تحولات كبيرة بفضل الأبحاث المستمرة، وأحد أبرز هذه التطورات هو استخدام نموذج تحسين السياسات من القاع إلى القمة (Bottom-up Policy Optimization) في تحسين آليات نماذج اللغات الكبيرة (LLMs). في دراسة حديثة، تم تسليط الضوء على أن الأساليب التقليدية في التعلم المعزز (Reinforcement Learning) تتعامل مع نماذج اللغة وكأنها سياسة موحدة، متجاهلة الكفاءات الداخلية التي تضمن هذه النماذج.

في هذا البحث، تم تقسيم سياسة النماذج اللغوية المستندة إلى نماذج اللغات الكبيرة إلى سياسات داخلية تعتمد على طبقات متعددة. اتضح من خلال تحليل المعلومات أن هناك أنماطاً واضحة تتمثل في تحول السياسات الداخلية من استكشاف عالي الفوضى في الطبقات المبكرة إلى تعديل محدد في الطبقات العليا. على سبيل المثال، يُظهر نموذج Qwen هيكلاً للتفكير المتدرج، في حين أن نموذج Llama يتسم بالتقارب المفاجئ.

ومن المثير للاهتمام، أن تحسين الطبقات الداخلية يُحدث تغييرات جوهرية في ميزات النماذج، مما يُجبر الطبقات السفلية على استيعاب تمثيلات التفكير الرفيعة في وقت مبكر. استناداً إلى هذه النتائج، تم اقتراح استراتيجية BuPO التي تعيد بناء الأساس المنطقي للنماذج اللغوية من الأسفل إلى الأعلى من خلال تحسين الطبقات الداخلية في مراحلها المبكرة. وقد أثبتت التجارب الواسعة على معايير التفكير المعقد أن هذه الطريقة فعالة بشكل ملحوظ.

هذه الخطوة تمثل تقدماً مهماً في مجال الذكاء الاصطناعي والقائم على اللغة، مما يُشير إلى أن تحسين الأساليب الداخلية للنماذج يمكن أن يُحدث فرقاً كبيراً في طرق فهمها والتفاعل معها. بالرغم من التحديات، فإن الأسلوب الجديد يعد بتقديم حلول مبتكرة للمشكلات المعقدة في الذكاء الاصطناعي.