في عالم الذكاء الاصطناعي، تبرز نماذج اللغات الضخمة (Large Language Models) كأداة خارقة لإنتاج نصوص تبدو موسوعة وغنية بالمعلومات، لكنها تثير تساؤلات حول مدى تمثيلها للأخلاق. هل هي تعكس فهمًا عميقًا يتجاوز الفهم السطحي؟ في دراسة حديثة، قام الباحثون باستخدام نظرية الأسس الأخلاقية (Moral Foundations Theory - MFT) كإطار تحليلي لاستكشاف كيف تقوم هذه النماذج بترميز وتنظيم والتعبير عن القيم الأخلاقية عبر 14 نموذجًا مختلفًا.

تتضمن هذه النماذج نماذج من عائلات مختلفة مثل Llama وQwen2.5 وQwen3-MoE وMistral، وتتنوع من 7 مليارات إلى 70 مليار معلمة. من خلال نهج متعدد المستويات، قام الباحثون بتحليل تمثيل مفاهيم الأسس الأخلاقية ومستوى توافقها مع الأفكار الأخلاقية البشرية.

اكتشف الفريق أن هذه النماذج لا تميز فقط الأسس الأخلاقية، ولكنها تفعل ذلك بطريقة تتماشى مع الأحكام الإنسانية. وقد أظهرت النتائج أن هذه الجيومرتيا الأخلاقية تظهر طبيعياً من عملية التعليم المسبق للنماذج، وتتغير بشكل انتقائي بعد التدريب. علاوةً على ذلك، فقد أظهرت الميزات المستخرجة من الشبكات العصبية الصريحة صلة واضحة بمفاهيم أساسية محددة، مما يشير إلى وجود آليات جزئية مفصولة ضمن تمثيلات مشتركة.

أخيرًا، تشير النتائج إلى أن التوجيه على أساس المتجهات الكثيفة أو الميزات النادرة ينجم عنه تحولات متوقعة في السلوك المرتبط بالأسس الأخلاقية، مما يثبت وجود علاقة سببية بين التمثيلات الداخلية والمخرجات الأخلاقية. يشعر الباحثون أن هذه النتائج تعزز الفهم بأن المفاهيم الأخلاقية في نماذج اللغات الضخمة موزعة ومعقدة جزئيًا، مما يشير إلى إمكانية ظهور هيكل أخلاقي تعددي كنتيجة للنماذج الإحصائية للغة فقط.