في عالم الذكاء الاصطناعي، أصبح التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) نموذجًا قويًا لتحسين نماذج اللغة عند التعامل مع مهام التفكير المعقدة. لكن هذه الفعالية تواجه تحديات بسبب استراتيجيات الاستكشاف. إذ يميل النموذج أحيانًا إلى الفشل في معالجة المشكلات الصعبة، مما يترك إشارات مكافأة غير مفيدة.
تقدم آثار الخبراء الخارجية مصدرًا طبيعيًا للتوجيه، غير أنها قد تكشف أيضًا عن محتوى مرتبط بالمكافأة على المسار الحرج، مثل الإجابات النهائية والقيم الوسيطة وطرق التنفيذ المرتبطة بالإجابات. يمكن أن يؤدي هذا المحتوى إلى إنشاء قناة غير مقصودة للاحتيال على المكافأة، مما يسمح للسياسة بالحصول على المكافأة عن طريق نسخ الأثر بدلاً من التعلم السليم للسلوك المنطقي أو السلوك التفاعلي.
تعمد الطرق الحالية المعتمدة على توجيه التعلم المعزز إلى تقليل هذه المخاطر من خلال استخدام مسارات جزئية، لكنها تتحكم في كمية المعلومات المقدمة بشكل تجريبي بدلاً من تحديد الأجزاء التي يجب إخفاؤها. ولمعالجة ذلك، نقترح استراتيجية جديدة تحت اسم "تحسين سياسة الخبراء بالتعتيم الدلالي" (Semantic Masked Expert Policy Optimization - SMEPO)، وهي استراتيجية تعتيم دلالي دقيقة موجهة لتوجيه RLVR.
بدلاً من تقطيع الآثار بشكل عشوائي أو كشفها كما هي، تقوم SMEPO بتعتيم الفقرات الدلالية المتعلقة بالمكافأة على المسار الحرج، مع الحفاظ على هيكل الخبير في التفكيك والتخطيط والإجراءات. هذا يغير المشكلات الصعبة من التفكير من الصفر إلى عملية ملء الفراغات: يمكن للسياسة اتباع مسار حل المشكلات للخبير، ولكن يجب عليها إعادة بناء القيم المفقودة أو الكود أو الكيانات بنفسها.
تتميز استراتيجية SMEPO بسهولة التطبيق وبدون الحاجة إلى تغييرات في دالة المكافأة أو هدف التعلم المعزز. في عديد من المجالات، بما في ذلك الرياضيات والترميز والبحث التفاعلي، تحسن SMEPO من دقة النماذج بمعدل يصل إلى 3.2 نقطة، وتقلل من وقت التدريب بمعدل يصل إلى 4.2 مرة. يمكنك الاطلاع على الكود الخاص بها هنا.
التعلم الذكي عبر التعتيم الدلالي: استراتيجية جديدة لتعزيز نماذج الذكاء الاصطناعي
تقدم استراتيجية التعتيم الدلالي (Semantic Masking) طريقة مبتكرة لتحسين نماذج التعلم المعزز عبر مكافآت قابلة للتحقق، مما يعزز القدرة على حل مشكلات التعقيد. هذه التقنية تعزز من دقة النماذج وتقصر من مدة التدريب بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
