تعد كيفية تمثيل نماذج اللغة الضخمة (Large Language Models) للممارسات والسلوكيات البشرية موضوعًا بالغ الأهمية في مجال الذكاء الاصطناعي (AI) وذلك لأثره المباشر على سلامة وأمان هذه الأنظمة. أظهرت الأبحاث الأخيرة أن بعض السمات مثل الخبث (evil) والتملق (sycophancy) ترتبط بخطوط مستقيمة في التنشيطات الداخلية للنموذج، والمعروفة باسم "متجهات الشخصية" (persona vectors).
ولكن السؤال يظل: كيف تتشكل هذه المتجهات أثناء فترة التدريب؟
للإجابة على هذا التساؤل، تم إجراء دراسة على نموذج OLMo-3-7B، حيث تم اكتشاف أن متجهات الشخصية تتشكل في وقت مبكر جداً، خلال 0.22٪ فقط من فترة ما قبل التدريب على OLMo-3. وقد ثبت أن هذه المتجهات فعالة جدًا في توجيه سلوك النماذج المدربة بالكامل.
وعلى الرغم من أن تمثيلات النماذج الأساسية تتشكل في وقت مبكر، إلا أن متجهات الشخصية تستمر في التعديل هندسيًا ودلاليًا طوال فترة التدريب. كما تمت مقارنة استراتيجيات مختلفة لتوليد هذه المتجهات، وأثبتت جميعها كفاءتها في استخراج اتجاهات فعالة، حيث أبرزت كل استراتيجية جوانب مميزة وصوفية من الشخصية الأساسية للنموذج.
بالإضافة إلى ذلك، تم تطبيق هذا التحليل على نموذج Apertus-8B، مما يدل على أن النتائج التي حصلنا عليها لا تشمل فقط OLMo-3 بل تتجاوزها أيضًا. إن نتائجنا تؤكد على أن تمثيلات الشخصية هي ميزات مستقرة تتواجد منذ بداية التدريب، مما يمهد الطريق لاستكشاف كيفية تشكيل التدريب لها وتطويرها.
استكشاف كيفية تشكيل نماذج اللغة للسمات الشخصية خلال التدريب المبكر!
تظهر نتائج جديدة أن نماذج اللغة مثل OLMo-3-7B تشكل سمات شخصية مبكرة يمكن أن تؤثر على سلوكها. هذه الاكتشافات تفتح آفاقًا جديدة لفهم الذكاء الاصطناعي وتحسين سلامته.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
