في عالم الذكاء الاصطناعي، أصبح التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) هو المفتاح لفهم الاستدلال المعقد في النماذج اللغوية الكبيرة (Large Language Models). ومع ذلك، تواجه التقنيات الحالية، والتي تعتمد على تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization - GRPO)، تحديات صعبة تتعلق بمخرجات مكافآت ثنائية متكررة، مما قد يؤدي إلى انهيار ميزة الصفر (Zero-Advantage Collapse) (حيث تتشارك جميع المخرجات في مجموعة واحدة نفس النتيجة)، أو وهم اليقين (Hallucinated Certainty) (عندما يصبح النموذج مفرط الثقة في مخرجات خاطئة خلال المرحلة النهائية من التدريب).
لتجاوز هذه العقبات، يقدّم الباحثون تقنية جديدة تُدعى تحسين سياسة الإشارة الداخلية (Intrinsic Signal Policy Optimization - ISPO)، التي تعزز المكافأة من خلال دمج إشارات داخلية مستمدة بالكامل من احتمالات السياسة الخاصة. تدمج هذه التقنية الإشارات على مستوى التسلسل التي تقيس مدى أهمية مسار التفكير في الوصول إلى الإجابة النهائية، مع مكافأة توجيهية تعتمد على مستوى الرموز لتعزيز التنبؤات الصحيحة وتقليل الثقة في الإجابات الخاطئة.
تم اختبار هذا النظام على ثلاثة نماذج أساسية وخمسة معايير استدلال رياضي، وأثبتت النتائج أن ISPO تتفوق باستمرار على الأساليب التقليدية، خاصة في الاحتياجات الأكثر تعقيدًا حيث يظهر انهيار الميزة الصفرية بشكل أكبر. تظهر التشخيصات الديناميكية للتدريب أيضًا انخفاضًا في كلا وضعي الفشل، مما يُظهر القدرات الكبيرة لهذه التقنية الجديدة في تطوير الذكاء الاصطناعي.
ثورة الذكاء الاصطناعي: إشارات داخلية محفزة تعزز استدلال النماذج اللغوية!
استكشف كيف تمثل تقنية تعزيز التعلم مع المكافآت القابلة للتحقق طفرة جديدة في تحسين سياسات الذكاء الاصطناعي. استخدام الإشارات الداخلية قد يحل مشكلات شائعة ويعزز القدرة على الاستدلال المعقد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
