في عالم الذكاء الاصطناعي، يعد [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) مع [المكافآت](/tag/المكافآت) القابلة للتحقق ([Reinforcement Learning](/tag/reinforcement-learning) with Verifiable Rewards أو [RLVR](/tag/rlvr)) محوريًا لتطوير قدرات [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة). ولكن، هل تساءلت يومًا كيف يمكن لهذه [التقنية](/tag/التقنية) أن تسهم في [تحسين](/tag/تحسين) قدرتنا على [التفكير](/tag/التفكير) من خلال [النماذج](/tag/النماذج) المستخدمة؟
تواجه الأساليب التقليدية المستخدمة اليوم، مثل أهداف التعويض المتقدمة ([PPO](/tag/ppo) Surrogate Objectives)، مشكلة هيكلية رئيسية. فهي تعتمد على [تقريب](/tag/تقريب) محلي لأساسيات الهدف الخاص بتدرج السياسات، مما يؤدي إلى تقديم [انحياز](/tag/انحياز) هيكلي لا بد من التخفيف منه [عبر](/tag/عبر) [آليات](/tag/آليات) مناطق [الثقة](/tag/الثقة).
[الابتكار](/tag/الابتكار) الجديد يتضمن تقديم ما يسمى بـ "خطوة التعقب للأمام" (N-step Forward Trace)، التي تضيف بُعدًا جديدًا لأهداف [PPO](/tag/ppo) من خلال استخدام نسبة الاحتمالية التراكمية للـ $N-1$ [رموز](/tag/رموز) التالية. وتمثل هذه الفكرة حجر الزاوية في [تطوير](/tag/تطوير) [خوارزمية](/tag/خوارزمية) جديدة تُعرف باسم "[تحسين](/tag/تحسين) [سياسة](/tag/سياسة) التعقب للأمام متعدد الخطوات" (N-Step Forward-Trace [Policy Optimization](/tag/policy-optimization) أو NFPO).
تعتمد NFPO على دمج خط التعقب للأمام في إطار تدرج السياسة المقنع، مما يؤدي إلى إقامة صلة مستمرة بين أهداف [PPO](/tag/ppo) والهدف الحقيقي لتدرج السياسة. وبذلك، توفر هذه الخوارزمية وسيلة مبدئية للتحكم في توازن الانحياز والتباين.
تظهر تحليلاتنا النظرية، أنه مع اختيار مناسب لـ $N$، يمكن لهذا الهدف المقترح أن يقدم تحسنًا أقوى في [السياسات](/tag/السياسات) مقارنة بسابقه. كما برهنت [التجارب](/tag/التجارب) على مجموعة شاملة من [اختبارات](/tag/اختبارات) التفكير، أن NFPO [تحقق](/tag/تحقق) أداءً متفوقًا، مما يعزز استنتاجاتنا النظرية.
في نهاية المطاف، تقدم هذه [الدراسة](/tag/الدراسة) الجديدة نقلة نوعية في كيفية [تحسين النماذج](/tag/[تحسين](/tag/تحسين)-[النماذج](/tag/النماذج)) اللغوية، وتعد بمستقبل واعد للمزيد من [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية) في مجال [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
ثورة في التعلم المعزز: تحسين النماذج اللغوية بنظام تصحيح متعدد الخطوات!
تمثل تقنية التعلم المعزز مع المكافآت القابلة للتحقق قفزة نوعية في تعزيز قدرات النماذج اللغوية. تقدم الدراسة الجديدة طريقة مبتكرة لتحسين أداء النماذج من خلال تصحيح احتمالات متعدد الخطوات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
