في ظل تزايد اعتماد المجتمع على نماذج اللغات الكبيرة (Large Language Models - LLMs)، تتصاعد المخاوف بشأن إمكانية إنتاج هذه النماذج لاستجابات ضارة. وفي استجابة لهذه التحديات، أصدرت الحكومات إرشادات أخلاقية تهدف إلى تعزيز تطوير الذكاء الاصطناعي الموثوق. غير أن هذه الإرشادات غالبا ما تكون مجرد مطالبات عالية المستوى تتطلب من المطورين والمختبرين، مما يترك فجوة في تحويلها إلى أسئلة اختبار قابلة للتنفيذ للتحقق من التزام LLMs.
لمعالجة هذه المسألة، قدم الباحثون منهج GUARD (اختبار الالتزام بالإرشادات من خلال الأدوار التفاعلية وتشخيص الانطباعات)، وهو وسيلة اختبار تهدف إلى تنشيط الإرشادات الأخلاقية من خلال صياغة أسئلة محددة قد تنتهك تلك الإرشادات، مما يمكننا من تقييم مدى الالتزام.
تستخدم GUARD توليدًا آليًا للأسئلة المخالفة للإرشادات بناءً على المعايير الأخلاقية الصادرة عن الحكومة، مما يتيح اختبار الردود ومدى توافقها مع هذه الإرشادات. عندما تكون الردود مخالفة بشكل مباشر، تقوم GUARD بالإبلاغ عن عدم التوافق. علاوةً على ذلك، بالنسبة للردود التي لا تنتهك الإرشادات بشكل مباشر، تتم دمج مفهوم "الاختراقات" في عمليات التشخيص، والمعروفة باسم GUARD-JD، لإنشاء سيناريوهات تثير استجابات غير أخلاقية أو مخالفة للإرشادات، مما يساعد في التعرف على السيناريوهات المحتملة التي يمكن أن تتجاوز آليات الأمان المدمجة.
تتوج هذه الطريقة في النهاية بتقرير عن الالتزام، يوضح مدى الالتزام ومدى حدوث أي انتهاكات. وقد تم التحقق من فعالية GUARD تجريبيًا على ثمانية نماذج من LLMs، بما في ذلك Vicuna-13B وLongChat-7B وLlama2-7B وLlama-3-8B وGPT-3.5 وGPT-4 وGPT-4o وClaude-3.7، من خلال اختبار الالتزام وفقًا لثلاث مجموعات من الإرشادات الحكومية وإجراء تشخيصات الاختراق. بالإضافة إلى ذلك، يمكن لـ GUARD-JD نقل تشخيصات الاختراق إلى نماذج اللغة-الرؤية (MiniGPT-v2 وGemini-1.5)، مما يظهر استخدامه في تعزيز التطبيقات المعتمدة على LLMs الموثوقة.
GUARD: اختبار التزام الذكاء الاصطناعي مع أدوار تفاعلية وتشخيص انطباعات متقدمة!
تمثل أدوات تقنيات الضوابط الجديدة خطوة مهمة نحو تطوير نماذج لغوية آمنة وموثوقة، إذ تسلط GUARD الضوء على طرق مبتكرة لاختبار توافق الذكاء الاصطناعي مع المعايير الأخلاقية. بفضل الاستخدام الذكي للعب الأدوار وتوليد السيناريوهات، تنفتح آفاق جديدة لتجنب المخاطر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
