تتسارع استخدامات نماذج اللغات الضخمة (Large Language Models) في مجالات التفاعل بين الإنسان والذكاء الاصطناعي، لكن الكثير من الدراسات الحالية تركز على القدرات والمعايير الأمنية دون أن تكشف الكثير عن أولويات القيم التي تعبر عنها هذه الأنظمة.
في دراسة حديثة، تم تقديم نهج يعتمد على تحليل المخرجات لتقييم جانب واحد من جوانب توافق الذكاء الاصطناعي، حيث تم اعتبار النصوص التي تنتجها نماذج اللغات الضخمة بمثابة بيانات سلوكية تتم مقارنتها مع مرجع بشري.
شملت الدراسة ثلاث مراحل رئيسية:
- **المرحلة الأولى**: استخدمت تحليلًا نوعيًا استقرائيًا لاستنتاج ستة موضوعات تتعلق بوظائف الذكاء الاصطناعي المثلى، وهي الأداء، والقدرة التكيفية، والخير الاجتماعي، والأخلاق والمسؤولية، والتكامل العلاقي، والوكالة.
- **المرحلة الثانية**: أظهرت أن مخرجات نماذج اللغات الضخمة كانت مستقرة للغاية داخل النماذج واتفقت على هيكل قيمة أولوياته عبر النماذج، مما يشير إلى موثوقية وقابلية المقارنة بين ملفات القيم.
- **المرحلة الثالثة**: تم تقييم 75 نموذجًا معاصرًا للغات ضد 376 مشاركًا بشريًا باستخدام مقياس يُركز على دقة الملف، مما يعكس الترتيب النسبي للأولويات ومعايرة الفروقات بين الأولويات.
على الرغم من أن معظم النماذج أعادت إنتاج ترتيب القيم الإنسانية، إلا أن بعضها بالغ في الفروقات بينها، مما يظهر أن النماذج قد تتوافق مع المعايير التقليدية بينما لا تزال تختلف عن معايرة القيم البشرية. كما أظهرت دقة الملف تباينًا كبيرًا بين النماذج، ولم تتماشى بشكل موحد مع الحجم أو حداثة النموذج أو مستوى القدرة.
هذه النتائج تثير تساؤلات هامة حول التطورات المستقبلية للأنظمة الذكية ذات الوكالة المتزايدة. من خلال هذه الدراسة، تأتي الموضوعات الستة والمقياس القائم على الملف كطريقة قابلة للتطبيق لفحص ملفات قيم نماذج اللغات الضخمة قبل نشرها في سياقات حيث توافقها مع أولويات البشر أمر بالغ الأهمية.
استكشاف توافق الذكاء الاصطناعي في نماذج اللغات الضخمة: تحليل قيم 75 نموذجًا مع تقييمات بشرية
في دراسة جديدة، تم فحص توافق الذكاء الاصطناعي في نماذج اللغات الضخمة من خلال تحليل 75 نموذجًا. نتائج الدراسة تظهر تحديات بتحديد أولويات القيم بين الأنظمة البشرية والذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
