في عالم الذكاء الاصطناعي، يبرز دور [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) كنموذج تحويلي قادر على [فهم](/tag/فهم) وإنتاج [اللغة](/tag/اللغة). غير أن التحديات العديدة، مثل الدخول غير المشروع (jailbreaks)، تضع هذه [النماذج](/tag/النماذج) تحت ضغوط جديدة. في [دراسة](/tag/دراسة) حديثة، تم تقديم إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يعتمد على [نظرية](/tag/نظرية) الألعاب، مما يحوِّل كيفية [تقييم](/tag/تقييم) هذه [النماذج](/tag/النماذج).

تتضمن هذه الديناميكية الرائدة تفاعلًا بين المدرب الذي يُعدّل النموذج والمقيم الذي يختبره لكشف العيوب الأمنية. الحل المبتكر هو استخدام البنى الرياضية، مثل العمليات الجماعية، التي تتيح [نمذجة البيانات](/tag/[نمذجة](/tag/نمذجة)-[البيانات](/tag/البيانات)) بشكل أكثر [دقة](/tag/دقة) لتخفيف تأثير الهجمات. في أبسط صوره، تُستخدم دائرة بمجموعات التحويل الدوري لتوضيح كيف يمكن أن تختلف النتائج اعتمادًا على نطاق [تعميم](/tag/تعميم) المدرب.

من المثير للاهتمام أن [الدراسة](/tag/الدراسة) تكتشف أن الاقتراب من حدود معينة يمكن أن يحافظ على معدل ثابت من [الأخطاء](/tag/الأخطاء) [عبر](/tag/عبر) [عدد](/tag/عدد) كبير من الجولات، بينما قد تؤدي إعدادات أخرى إلى تصرفات متباينة تمامًا.

بالإضافة إلى ذلك، تقدم [الأدلة](/tag/الأدلة) التجريبية إيضاحًا هامًا حول الاعتمادية المحلية للنماذج، حيث أظهرت [الأبحاث](/tag/الأبحاث) على ثلاثة [عائلات](/tag/عائلات) من [النماذج](/tag/النماذج) ([Llama](/tag/llama) وQwen وMistral) أن [تحسين النموذج](/tag/[تحسين](/tag/تحسين)-النموذج) استجابةً للمدخلات العدائية يؤدي فقط إلى [تعميم](/tag/تعميم) محلي، حيث ترتبط معدلات الرفض للأمثلة الاختبارية بشكل كبير ببعدها عن المدخلات المعدلة.

باختصار، تعيد هذه [الدراسة](/tag/الدراسة) تصور مفهوم [التقييم](/tag/التقييم) العدائي، حيث لم تعد [المعايير](/tag/المعايير) مجرد مجموعة ثابتة من المدخلات، بل أصبحت تمثل مدارات تحت تأثير [تفاعل](/tag/تفاعل) المقيم مع المجموعة. يفتح هذا الإطار الجديد آفاقًا واسعة لفهم أفضل لعملية [التعديل](/tag/التعديل) والتحسين في [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة).