تعد كيفية تمثيل نماذج اللغة الضخمة (Large Language Models) للممارسات والسلوكيات البشرية موضوعًا بالغ الأهمية في مجال الذكاء الاصطناعي (AI) وذلك لأثره المباشر على سلامة وأمان هذه الأنظمة. أظهرت الأبحاث الأخيرة أن بعض السمات مثل الخبث (evil) والتملق (sycophancy) ترتبط بخطوط مستقيمة في التنشيطات الداخلية للنموذج، والمعروفة باسم "متجهات الشخصية" (persona vectors).

ولكن السؤال يظل: كيف تتشكل هذه المتجهات أثناء فترة التدريب؟

للإجابة على هذا التساؤل، تم إجراء دراسة على نموذج OLMo-3-7B، حيث تم اكتشاف أن متجهات الشخصية تتشكل في وقت مبكر جداً، خلال 0.22٪ فقط من فترة ما قبل التدريب على OLMo-3. وقد ثبت أن هذه المتجهات فعالة جدًا في توجيه سلوك النماذج المدربة بالكامل.

وعلى الرغم من أن تمثيلات النماذج الأساسية تتشكل في وقت مبكر، إلا أن متجهات الشخصية تستمر في التعديل هندسيًا ودلاليًا طوال فترة التدريب. كما تمت مقارنة استراتيجيات مختلفة لتوليد هذه المتجهات، وأثبتت جميعها كفاءتها في استخراج اتجاهات فعالة، حيث أبرزت كل استراتيجية جوانب مميزة وصوفية من الشخصية الأساسية للنموذج.

بالإضافة إلى ذلك، تم تطبيق هذا التحليل على نموذج Apertus-8B، مما يدل على أن النتائج التي حصلنا عليها لا تشمل فقط OLMo-3 بل تتجاوزها أيضًا. إن نتائجنا تؤكد على أن تمثيلات الشخصية هي ميزات مستقرة تتواجد منذ بداية التدريب، مما يمهد الطريق لاستكشاف كيفية تشكيل التدريب لها وتطويرها.