في عالم الذكاء الاصطناعي، تواجه نماذج اللغات الضخمة (Large Language Models) تحديًا كبيرًا في إنتاج نصوص سامة أو غير ملائمة حتى عند معالجة مدخلات عادية. هذا الأمر يشكل خطرًا كبيرًا عند نشر هذه النماذج على نطاق واسع، مما يعكس الحاجة الملحة لتقنيات detoxification أو التخلص من السموم.
تتطلب الأساليب التقليدية للتخلص من المحتوى الضار، مثل إعادة تدريب النماذج أو استخدام مكونات تعلم مساعدة، موارد ضخمة وقد لا تنجح في كل حالة أو على جميع العائلات النماذج. ولذا، تم تطوير طريقة جديدة تعمل في وقت الاختبار تستند إلى تقريب تدرج السمية مع مراعاة مدخلات النموذج.
تعتمد هذه الطريقة على تحسين من الدرجة صفر، مما يعني أنها لا تحتاج سوى للوصول إلى تمثيلات المدخلات، وظيفة تقييم السمية، وتقييمات نموذجية للأمام. ورغم بساطتها، توفر هذه الطريقة انخفاضًا قويًا في السمية عبر نماذج متعددة ومعظم الإعدادات، محققة توازنًا متميزًا بين السمية وجودة النص الناتج.
من خلال توظيف تمثيلات الكلمات كعوامل تحكم فعالة، يدعو هذا العمل إلى استخدام أوسع لتحسينات الصندوق الأسود لتوجيه نماذج اللغات التلقائية نحو توليد نصوص أكثر أمانًا وقابلية للتوسع، دون الحاجة إلى أي تدريب أو وصول إلى عمليات حسابية متوسطة.
تقنية جديدة للتخلص من المحتوى السام في نماذج الذكاء الاصطناعي دون الحاجة للتدريب
تقدم إرشادات جديدة للتخلص من النصوص السامة الناتجة عن نماذج اللغات الضخمة، مما يعزز الثقة والسلامة أثناء استخدامها. هذه الطريقة لا تتطلب إعادة تدريب النماذج، مما يجعلها حلاً مبتكرًا وفعالاً.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
