GUARD: اختبار التزام الذكاء الاصطناعي مع أدوار تفاعلية وتشخيص انطباعات متقدمة!

في ظل تزايد اعتماد المجتمع على نماذج اللغات الكبيرة (Large Language Models - LLMs)، تتصاعد المخاوف بشأن إمكانية إنتاج هذه النماذج لاستجابات ضارة. وفي استجابة لهذه التحديات، أصدرت الحكومات إرشادات أخلاقية تهدف إلى تعزيز تطوير الذكاء الاصطناعي الموثوق. غير أن هذه الإرشادات غالبا ما تكون مجرد مطالبات عالية المستوى تتطلب من المطورين والمختبرين، مما يترك فجوة في تحويلها إلى أسئلة اختبار قابلة للتنفيذ للتحقق من التزام LLMs.

لمعالجة هذه المسألة، قدم الباحثون منهج GUARD (اختبار الالتزام بالإرشادات من خلال الأدوار التفاعلية وتشخيص الانطباعات)، وهو وسيلة اختبار تهدف إلى تنشيط الإرشادات الأخلاقية من خلال صياغة أسئلة محددة قد تنتهك تلك الإرشادات، مما يمكننا من تقييم مدى الالتزام.

تستخدم GUARD توليدًا آليًا للأسئلة المخالفة للإرشادات بناءً على المعايير الأخلاقية الصادرة عن الحكومة، مما يتيح اختبار الردود ومدى توافقها مع هذه الإرشادات. عندما تكون الردود مخالفة بشكل مباشر، تقوم GUARD بالإبلاغ عن عدم التوافق. علاوةً على ذلك، بالنسبة للردود التي لا تنتهك الإرشادات بشكل مباشر، تتم دمج مفهوم "الاختراقات" في عمليات التشخيص، والمعروفة باسم GUARD-JD، لإنشاء سيناريوهات تثير استجابات غير أخلاقية أو مخالفة للإرشادات، مما يساعد في التعرف على السيناريوهات المحتملة التي يمكن أن تتجاوز آليات الأمان المدمجة.

تتوج هذه الطريقة في النهاية بتقرير عن الالتزام، يوضح مدى الالتزام ومدى حدوث أي انتهاكات. وقد تم التحقق من فعالية GUARD تجريبيًا على ثمانية نماذج من LLMs، بما في ذلك Vicuna-13B وLongChat-7B وLlama2-7B وLlama-3-8B وGPT-3.5 وGPT-4 وGPT-4o وClaude-3.7، من خلال اختبار الالتزام وفقًا لثلاث مجموعات من الإرشادات الحكومية وإجراء تشخيصات الاختراق. بالإضافة إلى ذلك، يمكن لـ GUARD-JD نقل تشخيصات الاختراق إلى نماذج اللغة-الرؤية (MiniGPT-v2 وGemini-1.5)، مما يظهر استخدامه في تعزيز التطبيقات المعتمدة على LLMs الموثوقة.

GUARD: اختبار التزام الذكاء الاصطناعي مع أدوار تفاعلية وتشخيص انطباعات متقدمة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!

بحيرة تاهو في وادي السيليكون: كيف تؤثر ارتفاع أسعار الطاقة بسبب الذكاء الاصطناعي على مناخ الترفيه؟