في الآونة الأخيرة، شهدت نماذج اللغات الكبيرة (Large Language Models) تحولاً ملحوظاً من أنظمة تفاعلية بسيطة إلى وكالات ذكية قادرة على الاحتفاظ بالذاكرة، واستخدام الأدوات، والوصول إلى بيئات خارجية، وتنفيذ المهام. ومع توسع قدراتها واستقلاليتها، أصبحت المخاطر السلامة التي تواجهها أكثر تنوعاً وتعقيداً.
تأتي معظم التقييمات الحالية مبنية على سيناريوهات مكتوبة يدوياً، ومطالب ثابتة، أو أحكام نهائية على النتائج، مما يصعب من التقاط المخاطر المتنوعة التي قد تواجهها الوكالات خلال تنفيذ المهام. هنا يظهر VESTA—إطار عمل مبتكر لتوليد السيناريوهات وتقييم السلامة بشكل أوتوماتيكي لوكالات نماذج اللغات الكبيرة.
يعتمد VESTA على خمسة أبعاد للمخاطر، حيث يقوم بتجسيد المخاطر السلامة المجردة والمتنوعة في تنفيذ المهام الواقعية إلى 1,072 سيناريو تقييم قابل للقياس. من خلال استخدام خط أنابيب التقييم الأوتوماتيكي، تم تقييم 12 وكالة من نماذج اللغات الكبيرة ضمن سياقين سلطويين. تشير النتائج إلى أن الوكالات الحالية لا تزال تواجه مخاطر سلوكية كبيرة خلال تنفيذ المهام، حيث بلغ متوسط معدل سلامة السلوك (ASR) 47.1٪، فيما تجاوزت عدة نماذج 70٪.
تؤكد هذه النتائج على أهمية إجراء تقييمات قابلة للتنفيذ على مستوى العمليات لفهم أو تحسين سلامة وكالات نماذج اللغات الكبيرة. يبدو أن السلامة لا تزال أحد التحديات الكبيرة في تطور هذه الأنظمة، مما يستدعي اتخاذ خطوات فورية لتعزيز قدراتها المتقدمة ومنع المخاطر المحتملة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
VESTA: إطار مبتكر لتوليد السيناريوهات وتقييم السلامة للوكالات الذكية
أعلنت دراسة جديدة عن VESTA، نظام أوتوماتيكي لتوليد السيناريوهات وتقييم الأمان لوكالات نماذج اللغات الكبيرة، مما يكشف عن مخاطر السلامة المتزايدة أثناء تنفيذ المهام. النتائج تبرز الحاجة لتقييمات أكثر دقة لتحسين سلامة هذه الوكالات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
