في عالم الذكاء الاصطناعي، يبرز دور [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) كنموذج تحويلي قادر على [فهم](/tag/فهم) وإنتاج [اللغة](/tag/اللغة). غير أن التحديات العديدة، مثل الدخول غير المشروع (jailbreaks)، تضع هذه [النماذج](/tag/النماذج) تحت ضغوط جديدة. في [دراسة](/tag/دراسة) حديثة، تم تقديم إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يعتمد على [نظرية](/tag/نظرية) الألعاب، مما يحوِّل كيفية [تقييم](/tag/تقييم) هذه [النماذج](/tag/النماذج).
تتضمن هذه الديناميكية الرائدة تفاعلًا بين المدرب الذي يُعدّل النموذج والمقيم الذي يختبره لكشف العيوب الأمنية. الحل المبتكر هو استخدام البنى الرياضية، مثل العمليات الجماعية، التي تتيح [نمذجة البيانات](/tag/[نمذجة](/tag/نمذجة)-[البيانات](/tag/البيانات)) بشكل أكثر [دقة](/tag/دقة) لتخفيف تأثير الهجمات. في أبسط صوره، تُستخدم دائرة بمجموعات التحويل الدوري لتوضيح كيف يمكن أن تختلف النتائج اعتمادًا على نطاق [تعميم](/tag/تعميم) المدرب.
من المثير للاهتمام أن [الدراسة](/tag/الدراسة) تكتشف أن الاقتراب من حدود معينة يمكن أن يحافظ على معدل ثابت من [الأخطاء](/tag/الأخطاء) [عبر](/tag/عبر) [عدد](/tag/عدد) كبير من الجولات، بينما قد تؤدي إعدادات أخرى إلى تصرفات متباينة تمامًا.
بالإضافة إلى ذلك، تقدم [الأدلة](/tag/الأدلة) التجريبية إيضاحًا هامًا حول الاعتمادية المحلية للنماذج، حيث أظهرت [الأبحاث](/tag/الأبحاث) على ثلاثة [عائلات](/tag/عائلات) من [النماذج](/tag/النماذج) ([Llama](/tag/llama) وQwen وMistral) أن [تحسين النموذج](/tag/[تحسين](/tag/تحسين)-النموذج) استجابةً للمدخلات العدائية يؤدي فقط إلى [تعميم](/tag/تعميم) محلي، حيث ترتبط معدلات الرفض للأمثلة الاختبارية بشكل كبير ببعدها عن المدخلات المعدلة.
باختصار، تعيد هذه [الدراسة](/tag/الدراسة) تصور مفهوم [التقييم](/tag/التقييم) العدائي، حيث لم تعد [المعايير](/tag/المعايير) مجرد مجموعة ثابتة من المدخلات، بل أصبحت تمثل مدارات تحت تأثير [تفاعل](/tag/تفاعل) المقيم مع المجموعة. يفتح هذا الإطار الجديد آفاقًا واسعة لفهم أفضل لعملية [التعديل](/tag/التعديل) والتحسين في [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة).
لعبة التقييم: تجاوز حدود اختبار نماذج اللغات الضخمة
تقدم دراسة جديدة إطارًا نظريًا حول كيفية تحسين نماذج اللغات الضخمة لمواجهة التحديات الأمنية. من خلال استخدام رياضيات الألعاب، يتم استكشاف تفاعل المدربين والمقيمين في بيئة ديناميكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
