في عالم الذكاء الاصطناعي، تُعتبر [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) أحد أبرز [الابتكارات](/tag/الابتكارات) التي سببت ثورة في طريقة تفاعلنا مع [التكنولوجيا](/tag/التكنولوجيا). ومع تزايد استخدامها، تتزايد كذلك المخاوف حول بعض المخرجات الحادة أو الضارة التي قد تُنتجها هذه [النماذج](/tag/النماذج). لذلك، يأتي مفهوم إزالة [المعرفة](/tag/المعرفة) المميزة (Distinguishable Deletion) كخطوة مبتكرة لتجاوز التحديات المرتبطة بإدارة [المعلومات](/tag/المعلومات) الحساسة.
[تتبع](/tag/تتبع) الأساليب التقليدية لتحسين [أمان](/tag/أمان) [النماذج](/tag/النماذج) طريقتين رئيسيتين: إزالة [المعرفة](/tag/المعرفة) (Knowledge Deletion) التي تعني محو [المعلومات](/tag/المعلومات) غير المرغوب فيها أثناء التدريب، ورفض [المعرفة](/tag/المعرفة) المميزة (Distinguishable Refusal) التي توجه [النماذج](/tag/النماذج) لتفادي استخدام [معلومات](/tag/معلومات) [حساسة](/tag/حساسة) أثناء [الاستدلال](/tag/الاستدلال). رغم التقدم السريع، تواجه طرق إزالة [المعرفة](/tag/المعرفة) معضلات - إذ تتعرض لمحاولات حذف متحيزة لمعلومات معينة دون [فقدان المعرفة](/tag/فقدان-[المعرفة](/tag/المعرفة)) بالكامل، في حين أن [استراتيجيات](/tag/استراتيجيات) الرفض قد تؤدي إلى إعادة ظهور [المعرفة](/tag/المعرفة) الضارة.
من هنا، تم طرح مفهوم إزالة [المعرفة](/tag/المعرفة) المميزة، والذي يقيد توزيع الرد في [التمثيل](/tag/التمثيل) الكامن بدلاً من التعامل مع كلمات معينة فقط. يسمح هذا بحذف [المعرفة](/tag/المعرفة) غير المرغوب فيها مع التميز بين [المعرفة](/tag/المعرفة) المحتفظ بها، مما يمكن آلية الرفض لمعالجة المدخلات التي لم تُتعلم بأمان وبتماسك.
لتطبيق فكرة إزالة [المعرفة](/tag/المعرفة) المميزة، تم تقديم مؤشر [طاقة](/tag/طاقة) يقيس وجود [المعرفة](/tag/المعرفة) والفصل بين المحتوى غير المُتعلم والمحتوى المحفوظ. تُظهر التحليلات الرياضية والتجريبية أن هذا المؤشر فعال ودقيق، مما يسمح بتطبيق [محاذاة](/tag/محاذاة) [التعلم](/tag/التعلم) المبنية على [الطاقة](/tag/الطاقة) (Energy-based [Unlearning](/tag/unlearning) Alignment) خلال [التدريب](/tag/التدريب) وتنفيذ آلية الرفض المبنية على [الطاقة](/tag/الطاقة) أثناء [الاستدلال](/tag/الاستدلال).
تُظهر [التجارب](/tag/التجارب) المنجزة أن المحاذاة الجديدة تتفوق بشكل ملحوظ على الطرق السابقة، مما يشير إلى تفوق مفهوم إزالة [المعرفة](/tag/المعرفة) المميزة في تعزيز [سلامة](/tag/سلامة) [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي). يمكنكم الاطلاع على [كود](/tag/كود) المشروع [عبر](/tag/عبر) [GitHub](https://github.com/Puning97/EUA-for-LLM-Unlearning).
ما رأيكم في هذه الاتجاهات الجديدة؟ هل تعتقدون أنها ستكون فعالة في [تحسين](/tag/تحسين) [أمان](/tag/أمان) [النماذج](/tag/النماذج)؟ شاركونا في [التعليقات](/tag/التعليقات).
إزالة المعرفة المميزة: نهج ثوري لفهم فقدان المعلومات في نماذج اللغات الضخمة
اكتشاف جديد يعيد تعريف كيفية تعامل نماذج اللغات الضخمة مع المعلومات الضارة، حيث يقدم مفهوم إزالة المعرفة المميزة لإنشاء بيئات آمنة وموثوقة. هذا التطور يعد بمثابة خطوة كبيرة نحو تعزيز الأمان في استخدام الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
