في عالم الذكاء الاصطناعي المتسارع، تعتبر مسألة أمان نماذج اللغات الكبيرة (Large Language Models) من القضايا الشائكة. من المعروف أن تقنية تحسين التفضيلات المباشرة (Direct Preference Optimisation - DPO) تُستخدم على نطاق واسع لتحقيق التوافق مع معايير الأمان؛ إلا أن الدراسات السابقة أظهرت أنها قد تكون هشة وتمتلك قدرة منخفضة على التعميم خارج نطاق البيانات المعروفة (Out-of-Distribution - OOD).
في ورقة بحثية حديثة، تم استكشاف إمكانية تعزيز سلامة هذه النماذج من خلال منهجية جديدة تعرف بتعلم المنهجية (Curriculum Learning). نحن نتحدث هنا عن إطار عمل مبتكر يسمى الكفاءة التدريجية (Staged-Competence)، الذي ينظم بيانات التفضيل حسب مستوى الصعوبة ويطبق أساليب عيّنات قائمة على الكفاءة.
خلال التجارب، أظهرت الكفاءة التدريجية تقليلاً في معدلات الاستجابة الضارة بنسبة 16%، وكذلك تقليل نسب نجاح الهجمات الخبيثة بنسبة 20% دون التأثير على القدرات العامة للنموذج، حيث تم تحقيق ذلك باستخدام 75% فقط من بيانات التدريب.
وبذلك، يوفر الإطار الجديد القدرة على تحقيق التوافق مع معايير الأمان بدون الحاجة إلى حجم بيانات تدريب ضخم، مما يسهل تطبيقه في مجالات أخرى.
إذا كنت مهتمًا بمزيد من التفاصيل، يمكنك زيارة الرابط الذي يوفر الكود والبيانات ذات الصلة.
تعلم المنهجية: كيف تعزز أمان نماذج الذكاء الاصطناعي بتقنيات جديدة!
تقدم دراسة جديدة استخدام تقنية تعلم المنهجية لتحسين أمان نماذج اللغات الكبيرة من خلال تقليل الاستجابات الضارة. النتائج تشير إلى تحسن كبير في الأمان مع الاحتفاظ بالقدرات العامة للنموذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
