في عالم نماذج اللغة الكبيرة (Large Language Models) المتزايد، يبقى فهم آلية عمل هذه الأنظمة وتوجيهها تحديًا كبيرًا، مما يحد من قدرتنا على تشخيص وتصحيح السلوكيات غير المرغوب فيها. تطرح دراسة جديدة أسلوبًا مبتكرًا يستخدم التقليم المدعوم بالتوجيه (Attribution-Guided Pruning) لاكتشاف الدوائر المسؤولة عن سلوكيات معينة في هذه الأنظمة المعقدة.

يتمثل الأسلوب في استخدام تقنية الانتشار المرتبطة بالطبقات (Layer-wise Relevance Propagation - LRP) لتحديد المكونات الداخلية للنموذج المرتبطة بالنواتج المطلوبة عبر عينات مرجعية محددة. هذا يمكن الباحثين من تحديد المعلمات المهمة واستخراج دوائر وظيفية نادرة تساهم في الأداء.

لكن كيف يعمل هذا؟ من خلال تطبيق نهج يتعلق بالتمييز، تسلط الدراسة الضوء على قدرة النموذج في عزل الدوائر المرتبطة بالسلوكيات غير المرغوب فيها، مع الحفاظ على المهارات العامة للنموذج. ووفقًا للنتائج، فإن إزالة 100 خلية عصبية فقط، تمثل 0.3% من النموذج، تقلل بشكل كبير من المخلفات السامة، فيما يساهم تقليم 0.03% من عناصر الوزن في التقليل من توليد نصوص متكررة دون التأثير على الأداء العام للنموذج.

تؤكد هذه النتائج على فعالية النهج الذي يعتمد على التقليم المدعوم بالتوجيه في تحديد وضبط الدوائر الخاصة بالسلوكيات في نماذج اللغة الكبيرة، ولتوفير المزيد من التجارب، تم اختبار الطريقة على نماذج لغوية إضافية صغيرة، مما يشير إلى إمكانية انتقال هذه التقنية عبر البنى المعمارية المختلفة. للمزيد من المعلومات والتفاصيل التقنية، يمكنكم الاطلاع على الشيفرة المصدرية المتاحة على [GitHub](https://github.com/erfanhatefi/SparC3). هل ترون أن هذه النتائج يمكن أن تغير الطريقة التي نتفاعل بها مع نماذج الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!