في عصر تتزايد فيه الاعتماد على نماذج الذكاء الاصطناعي (AI)، يبرز سؤال أساسي يتعلق بكيفية تقييم محاذاة هذه النماذج مع القيم الأخلاقية والدولية. دراسة جديدة تناولت هذه القضية بشكل شامل، مشيرةً إلى أن تقييم المحاذاة في كثير من الأحيان يقتصر على قياس ما إذا كانت النماذج تعرض مفهومًا خطيرًا أو ترفض طلبات ضارة، دون النظر إلى مستوى أعمق يتعامل مع آلية التوجيه من الكشف إلى السياسة السلوكية.
ركز الباحثون على نموذج لغة صيني، واستفادوا من تجارب طبيعية لاختبار فرضياتهم عبر تسعة نماذج مفتوحة الوزن من خمسة مختبرات مختلفة. وقد أسفرت النتائج عن ثلاث اكتشافات رئيسية:
1. **الدقة وحدها ليست كافية:** أظهرت القياسات أن دقة الأدوات المستخدمة لا تعكس بالتأكيد أداء النماذج، حيث يمكن أن تصل الدقة إلى 100% عند استخدام النماذج السياسية وأدوات التحكم السلبية، مما يعني أنه يجب النظر في كيفية تعميم الفئات المحجوبة.
2. **التوجيه المحدد حسب المختبر:** من خلال إجراءات الاستئصال الجراحية، تم إثبات أن عملية توجيه المدخلات لا تعمل بنفس الطريقة عبر جميع النماذج، حيث يؤدي إزالة الاتجاه الحساس سياسيًا إلى استعادة دقة المخرجات، بينما بعض النماذج تفشل بسبب تداخل المعلومات.
3. **آلية الرقابة تتجاوز الرفض:** في بعض النماذج، انخفضت معدلات الرفض إلى الصفر في حين زادت الطرق السردية، مما يجعل الرقابة غير مرئية بالنسبة لمؤشرات الرفض التقليدية.
تؤكد هذه النتائج على نموذج وصفي من ثلاث مراحل: الكشف، التوجيه، والتوليد، مما يوضح أن النماذج تحتفظ بمعرفة كافية لكن الأسلوب الذي يتم التعبير عنه يتغير بناءً على الآليات المستخدمة.
لذا، فإن تقييمات المحاذاة التي تركز فقط على الكشف أو الرفض تفشل في ملاحظة عملية التوجيه التي تحدد بشكل مباشر سلوك النموذج. سؤال يطرح نفسه الآن: ما هي التبعات الأخلاقية لهذه النتائج؟
هل ينقلب تقييم المحاذاة رأسًا على عقب؟ دراسة جديدة تكشف الأبعاد الخفية للرقابة في نماذج الذكاء الاصطناعي!
تقدم دراسة جديدة نظرة ثاقبة حول كيفية عمل نماذج الذكاء الاصطناعي في تقييم المحاذاة، مشيرةً إلى أن التركيز على الكشف والرفض لا يكفي. عبر تحليل نماذج اللغة الصينية، تم الكشف عن آلية توجيه معقدة تحدد سلوك النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
