في عالم الذكاء الاصطناعي، يعتمد الذكاء العميق على التعلم التعزيزي (Reinforcement Learning) والذي يتطلب عادة تقييمًا موثوقًا لتقليل التباين. وهنا تأتي المشكلة: تتطلب الطرق الحالية مثل PPO (Proximal Policy Optimization) وجود نموذج نقدي بحجم كبير، بينما تحتاج طرق مثل GRPO (Generalized Regularized Policy Optimization) إلى عمليات تجريبية متعددة لكل طلب للحفاظ على استقرار المتوسط التجريبي.
لكن، ماذا لو كان بإمكاننا استخدام إشارات داخلية موجودة بالفعل؟
هذا هو ما قدمه الباحثون حديثًا من خلال تقنية تُسمى POISE (Policy Optimization with Internal State Value Estimation). هذه الطريقة تمكن النماذج من الحصول على تقديرات أساسية بتكلفة منخفضة، باستخدام إشارات داخلية تم حسابها خلال عملية تمرير السياسة. يساعد جهاز تنبؤ خفيف في التنبؤ بالمكافأة القابلة للتحقق من الحالات الخفية للطلب والمسار الذي تم توليده.
كما يتم تدريب POISE على الإنترنت بالتوازي مع السياسات، مما يعزز من دقة التقديرات. وبفضل هذه الطريقة، تستطيع النماذج الاستفادة من إجراء تنبؤات دقيقة للقيم، مع الحفاظ على انحياز التدرج رغم استخدام ميزات تعتمد على المسار.
تُظهر النتائج، التي تم اختبارها على نماذج متعددة مثل Qwen3-4B وDeepSeek-R1-Distill-Qwen-1.5B، أن POISE يتفوق على DAPO (Dynamic Actor Policy Optimization) مع تقليل متطلبات الحوسبة. هذا التسريع في التقدير يمثلخطوة كبيرة نحو تحسين التدريب وتقليل تكاليف العمليات.
إن POISE لا يقتصر فقط على تحسين الأداء، بل يفتح أيضًا بابًا لتنوع أفضل في الطلبات ضمن ميزانية حسابية محدودة، مما يؤدي إلى تقليل تباين التدرج وتحقيق تعلم أكثر استقرارًا. باختصار، يعد POISE ثورة جديدة في مجال التعلم التعزيزي، مما يمكّن النماذج من أن تصبح أكثر كفاءة واستقرارًا من خلال تعظيم الاستفادة من تمثيلاتها الداخلية.
نموذج لغوي يُقيم ذاته: تطوير التعلم التعزيزي باستخدام تقدير القيم من حالات الأداء الداخلية!
كشف الباحثون عن تقنية جديدة تعزز من كفاءة نماذج التعلم التعزيزي باستخدام تقديرات داخلية. تعيد هذه الطريقة تعريف كيفية تحسين النماذج اللغوية بشكل أكثر استقرارًا وفاعلية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
