في عالم الذكاء الاصطناعي، تُعتبر [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) أحد أبرز [الابتكارات](/tag/الابتكارات) التي سببت ثورة في طريقة تفاعلنا مع [التكنولوجيا](/tag/التكنولوجيا). ومع تزايد استخدامها، تتزايد كذلك المخاوف حول بعض المخرجات الحادة أو الضارة التي قد تُنتجها هذه [النماذج](/tag/النماذج). لذلك، يأتي مفهوم إزالة [المعرفة](/tag/المعرفة) المميزة (Distinguishable Deletion) كخطوة مبتكرة لتجاوز التحديات المرتبطة بإدارة [المعلومات](/tag/المعلومات) الحساسة.

[تتبع](/tag/تتبع) الأساليب التقليدية لتحسين [أمان](/tag/أمان) [النماذج](/tag/النماذج) طريقتين رئيسيتين: إزالة [المعرفة](/tag/المعرفة) (Knowledge Deletion) التي تعني محو [المعلومات](/tag/المعلومات) غير المرغوب فيها أثناء التدريب، ورفض [المعرفة](/tag/المعرفة) المميزة (Distinguishable Refusal) التي توجه [النماذج](/tag/النماذج) لتفادي استخدام [معلومات](/tag/معلومات) [حساسة](/tag/حساسة) أثناء [الاستدلال](/tag/الاستدلال). رغم التقدم السريع، تواجه طرق إزالة [المعرفة](/tag/المعرفة) معضلات - إذ تتعرض لمحاولات حذف متحيزة لمعلومات معينة دون [فقدان المعرفة](/tag/فقدان-[المعرفة](/tag/المعرفة)) بالكامل، في حين أن [استراتيجيات](/tag/استراتيجيات) الرفض قد تؤدي إلى إعادة ظهور [المعرفة](/tag/المعرفة) الضارة.

من هنا، تم طرح مفهوم إزالة [المعرفة](/tag/المعرفة) المميزة، والذي يقيد توزيع الرد في [التمثيل](/tag/التمثيل) الكامن بدلاً من التعامل مع كلمات معينة فقط. يسمح هذا بحذف [المعرفة](/tag/المعرفة) غير المرغوب فيها مع التميز بين [المعرفة](/tag/المعرفة) المحتفظ بها، مما يمكن آلية الرفض لمعالجة المدخلات التي لم تُتعلم بأمان وبتماسك.

لتطبيق فكرة إزالة [المعرفة](/tag/المعرفة) المميزة، تم تقديم مؤشر [طاقة](/tag/طاقة) يقيس وجود [المعرفة](/tag/المعرفة) والفصل بين المحتوى غير المُتعلم والمحتوى المحفوظ. تُظهر التحليلات الرياضية والتجريبية أن هذا المؤشر فعال ودقيق، مما يسمح بتطبيق [محاذاة](/tag/محاذاة) [التعلم](/tag/التعلم) المبنية على [الطاقة](/tag/الطاقة) (Energy-based [Unlearning](/tag/unlearning) Alignment) خلال [التدريب](/tag/التدريب) وتنفيذ آلية الرفض المبنية على [الطاقة](/tag/الطاقة) أثناء [الاستدلال](/tag/الاستدلال).

تُظهر [التجارب](/tag/التجارب) المنجزة أن المحاذاة الجديدة تتفوق بشكل ملحوظ على الطرق السابقة، مما يشير إلى تفوق مفهوم إزالة [المعرفة](/tag/المعرفة) المميزة في تعزيز [سلامة](/tag/سلامة) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي). يمكنكم الاطلاع على [كود](/tag/كود) المشروع [عبر](/tag/عبر) [GitHub](https://github.com/Puning97/EUA-for-LLM-Unlearning).

ما رأيكم في هذه الاتجاهات الجديدة؟ هل تعتقدون أنها ستكون فعالة في [تحسين](/tag/تحسين) [أمان](/tag/أمان) [النماذج](/tag/النماذج)؟ شاركونا في [التعليقات](/tag/التعليقات).