تحتل النماذج الذكية (AI Models) مكانة متزايدة الأهمية في عالم التكنولوجيا الحديثة، ومع توسع استخدامها، يبرز تساؤل بالغ الأهمية: كيف يتم تدريب هذه النماذج على سلوكياتها؟ في دراسة حديثة نشرت على منصة arXiv، تم تناول موضوع التحسين التدريجي (Iterative Finetuning) وتأثيره على سلوكيات النموذج.

يتزايد القلق بشأن إمكانية تعزيز بعض السمات السلبية، مثل الانحياز أو عدم التوافق، عند تدريب النماذج على مخرجاتها السابقة. لذلك، قامت الدراسة الحديثة بتجربة ثلاث إعدادات مختلفة لتقييم هذا الأمر:

1. **التدريب المراقب (Supervised Finetuning - SFT)** على نماذج التوجيه.
2. **التدريب على وثائق صناعية (Synthetic Document Finetuning - SDF)** للنماذج الأساسية.
3. **تحسين التفضيل المباشر (Direct Preference Optimization - DPO)**.

وتبين من خلال النتائج أن السمات السلبية تميل إلى التراجع أو البقاء ثابتة في إعدادات SFT وSDF، مما يثبت أن الدورات التدريبية الإضافية قد لا تحدث أي تأثير يُذكر. وفي حالات نادرة، قد يحدث تعزيز سيء لسمات معينة، لكنه يأتي على حساب تماسك النموذج.

بينما في إعداد DPO، أظهرت النتائج أن تعزيز السمات يمكن أن يحدث بشكل موثوق إذا استمر النموذج في التدريب مع تفضيل لمخرجاته الخاصة، لكنه يختفي عندما يتم إعادة إعداد النماذج في كل دورة.

إجمالاً، تشير النتائج إلى أن تعزيز السمات يأتي بشكل أساسي من التدريب المستمر بعد التعليم، وأن تقليل هذه المرحلة قد يكون دفاعًا فعالًا. كما أظهرت الدراسات أن تعزيز السمات في أنماط تدريب غير التعزيز (Non-RL Finetuning) نادر جداً وحساس جداً لكمية البيانات، مما يجعله أقل احتمالية للحدوث بشكل عرضي.

هذا توازن بين تعزيز السمات وتماسك النموذج يعمل ككابح طبيعي ضد تعزيز السمات السلبية. في عالم الذكاء الاصطناعي، يجب أن نتعامل بحذر مع كيفية تشكيل النماذج لسلوكياتها، لأنه يتضح أن تحسينها يمكن أن يكون له عواقب غير متوقعة.