تزداد أهمية نماذج اللغات الكبيرة (Large Language Models) في مجالات متعددة، حيث تُستخدم في أنظمة ذات وكلاء متعددة للتعاون في حل المهام عن طريق التواصل بلغة طبيعية. أحد المفاتيح لنجاح هذه الأنظمة هو تشكيل توافق بين الوكلاء، حيث يتبادلون الرسائل بشكل دوري لتحديث قراراتهم والوصول إلى نتائج مشتركة. ومع ذلك، يُفترض في معظم أنظمة LLM الحالية أن جميع الوكلاء المشاركين متوافقون مع هدف النظام.
في الواقع، قد يشارك عميل خبيث كمستفيد شرعي من المجموعة بينما يسعى لتحقيق هدف عدائي مخفي. تتناول الورقة البحثية الأخيرة هذا التهديد، حيث تم دراسة التلاعب الداخلي في أنظمة توافق نماذج اللغات الكبيرة متعددة الوكلاء.
قام الباحثون بصياغة هذا الإشكال كمسألة اتخاذ قرار تسلسلي، حيث يسعى الوكيل الخبيث إلى تأخير أو منع الاتفاق بين الوكلاء العاديين. من أجل جعل تحسين الهجوم أكثر قابلية للتحقيق، تم اقتراح إطار يعتمد على نماذج العالم (world models) يتعلم الديناميات البديلة للولايات السلوكية للوكلاء العاديين، ثم يتم تدريب المهاجم باستخدام تعلم التعزيز (reinforcement learning) بناءً على هذا النموذج المتعلم.
أظهرت النتائج الأولية أن المهاجم المدرب يقلل بشكل فعال من معدل التوافق بين الوكلاء العاديين ويطيل فترة الاختلاف مقارنة بالنموذج المباشر للهجمات الخبيثة. توضح هذه النتائج أن دمج نماذج العالم الخفية مع تعلم التعزيز يعتبر اتجاهاً واعداً لمواجهة الهجمات الداخلية التكيفية في أنظمة الوكلاء متعددة اللغات.
فماذا تعتقدون بشأن المخاطر المحتملة التي قد تواجه مثل هذه الأنظمة؟ شاركونا آراءكم في التعليقات.
هجمات داخلية تهدد أنظمة توافق نماذج اللغات الكبيرة المتعددة الوكلاء!
تقدم هذه الدراسة الجديدة رؤى حول التهديدات الداخلية في أنظمة توافق نماذج اللغات الكبيرة (LLMs) متعددة الوكلاء، حيث يقوم عملاء خبيثون بالتلاعب في عمليات اتخاذ القرار. النتائج تشير إلى استخدام تعلم التعزيز للتصدي لهذه التهديدات الخفية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
