في ظل تسارع تطور نماذج الذكاء الاصطناعي، باتت مسألة تقييم السلامة واحدة من القضايا الأكثر أهمية. دراسة جديدة نشرت على منصة arXiv، تكشف عن أن النتائج التي يتم الحصول عليها من تقييمات السلامة لا تعكس بالضرورة الأداء الفعلي للنماذج عندما يتم استخدامها في هياكل داعمة (agentic scaffold) لم يتم اختبارها سابقًا.
أجريت الدراسة على ستة نماذج متقدمة تم تقييمها في أربعة إعدادات نشر مختلفة، شملت (API المباشر، ReAct، النقد المتعدد الوكلاء، وتفويض خريطة-تقليل). وقد أظهرت النتائج التي تم جمعها من 62,808 تقييمات محجوبة ومُسجلة مسبقًا وجود تفاوت ملحوظ في درجات السلامة.
بينما حافظت هياكل ReAct والنقد المتعدد الوكلاء على مستوى متسق من السلامة داخل هامش مسجل مسبقًا، شهدت عمليات تفويض خريطة-تقليل انخفاضًا في السلامة القياسية. وأظهر التحليل أن هذا الانخفاض يعود جزئيًا إلى تحويل الصياغة، حيث يؤدي اختيار الأسئلة المتعددة إلى انحرافات تصل إلى 20 نقطة مئوية.
المفاجأة كانت في تباين الأداء بين النماذج تحت هيكل دعم محدد؛ حيث فقد نموذج Opus 16.8 نقطة مئوية بينما حقق نموذج Llama 4 ارتفاعًا بنسبة 18.8 نقطة مئوية. كما أشارت النتائج إلى أن هيكل الدعم لا يشكل سوى 0.4% من تباين النتائج، في حين أن اختيار المعيار مؤثر جدًا، بمعدل 45 ضعفًا في التأثير.
مع هذه الاكتشافات المثيرة، يؤكد الباحثون على الحاجة إلى إعادة تقييم طرق تحديد السلامة للنماذج في بيئات حقيقية، حيث قد تكون هذه النتائج حاسمة في تطبيقات تتعلق بخصائص ذات عواقب كبيرة مثل التخطيط والمواد الكيميائية.
تأثير الهياكل الداعمة على تقييمات السلامة في نماذج الذكاء الاصطناعي: دراسة جديدة تفتح الأفق!
تتطلب تقييمات السلامة في نماذج الذكاء الاصطناعي إعادة النظر في كيفية تأثير هياكل الدعم (scaffolding) على النتائج. دراسة حديثة تكشف عن تغييرات كبيرة في السلوك وتأثيرات متعددة تتعلق بطرق التقييم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
