يعد إضافة المعرفة في نماذج اللغات أحد التحديات الكبرى في مجال الذكاء الاصطناعي، ويُطلق على الآثار غير المقصودة التي قد تنجم عن تغييرات مستهدفة في نموذج اللغة اسم "أثر الدوائر". ظهر مؤخرًا أداة جديدة تُعرف باسم RippleBench-Maker، التي تسعى لتطوير فهمنا حول كيفية انتشار هذه الآثار عند تعديل نماذج الذكاء الاصطناعي.

تعمل RippleBench-Maker على استخدام مستودعات المعرفة الحالية لاسترجاع المفاهيم القريبة من أي فكرة جديدة، مما يمكننا من توليد أسئلة متعددة الاختيارات تتنوع في المسافات الدلالية. وتعتمد هذه الأداة على WikiRAG، وهو نظام مفتوح المصدر يشتغل على معلومات ويكيبيديا باللغة الإنجليزية، لتشكيل RippleBench-WMDP-Bio المكون من 584 موضوعًا أساسيًا و352,961 سؤالًا.

تم اختبار ثمانية أساليب لإزالة المعرفة على نموذج Llama3-8B-Instruct، وقد أظهرت جميعها انخفاضات ملحوظة في الدقة، حيث كانت هذه الانخفاضات الأكبر بالقرب من المعلومات المعدلة. وقد أظهر البحث تقاربًا ملحوظًا بين النماذج المختلفة مثل Mistral-7B وZephyr-7B، مما يشير إلى أن آثار الدوائر تبدو وكأنها خاصية تتعلق بأساليب الإزالة بدلاً من النموذج الأساسي.

لتأكيد النتائج، تمت تجربة جميع مراحل العملية الرئيسية باستخدام دراسة أجريت عبر Mechanical Turk، حيث حصلت على أكثر من 5200 استجابة من 61 مشاركًا. كما تم إصدار جميع الأكواد والبيانات والبنية التحتية الخاصة بالأداة, مما يعني أنها ستتاحة للبحث والتطوير بشكل أوسع. ينظر الباحثون إلى RippleBench كخطوة كبيرة نحو فهم كيفية إدارة المعلومات داخل نماذج الذكاء الاصطناعي وتخفيف المخاطر المرتبطة بالتعديلات.