في عالم الذكاء الاصطناعي، لطالما كان التدريب المحافظ (Conservative Offline Training) موضوع نقاشات عديدة. يُعتبر هذا النوع من التدريب أساسًا آمنًا للتكيف عبر الإنترنت. يكمن الافتراض الرئيسي هنا في أنه كلما كان النموذج قريبًا من سلوك مثبت، قلّ احتمال استغلاله لنقائص نموذج المكافآت الذي يتعلمه. لكن دراسة حديثة تحدّ من هذه الفكرة، مبيّنة أن التدريب المحافظ قد يؤدي بصورة مذهلة إلى نتائج معاكسة.

في هذه الدراسة، تم تدريب نموذج Qwen3-14B باستخدام تقنية تحسين التفضيلات المباشرة (Direct Preference Optimization - DPO) على ثلاثة مستويات من الحذر (β) تم اشتقاقها من النسب المئوية لسجلات التجارب. تم التكيف مع كل نقطة توقف على الإنترنت ضد تجميع مكافآت متعلم (3×Qwen3-1.7B)، بينما تم قياس الأداء الحقيقي بناءً على دقة الإجابة الصحيحة في مجموعة بيانات GSM8K.

تفيد النتائج أن ارتفاع مستوى الحذر أثناء التدريب مرتبط بزيادة الأضرار الناتجة عن استغلال المكافآت، وهو ما تم قياسه من خلال فجوة Goodhart ومناطقها تحت المنحنى. التحليل الميكانيكي للكائن يشير إلى سلسلة سببية تتكون من ثلاث حلقات: أولاً، DPO عالي الحذر يضغط على اعتدال السياسات، وثانياً، السياسات ذات الاعتدال المنخفض تنتج ردودًا تتمتع بتنوع أقل، مركّزة في منطقة ضيقة من توزيع تدريب نموذج المكافآت، وثالثاً، على الرغم من هذا القرب، تزداد الخلافات بين التجمعات (عدم اليقين الإبستيمولوجي) مع زيادة الحذر.

تشير النتائج إلى أن الشّعبية التعليمية في مجال الذكاء الاصطناعي ينبغي أن تركز على الحذر المتوازن، وليس الحذر الأقصى، لإيجاد التوازن بين موثوقية التوافق والضعف أمام الاستغلال.