تسجل نماذج اللغات الضخمة (LLMs) تقدمًا ملحوظًا في مجالات متعددة، ولكنها جاءت مع تحديات جديدة. من خلال نقاشات متعددة الوكلاء، يتبين أن هذه النماذج تعاني من سلوكيات غامضة. يمكّننا التحليل الأخير من فهم التركيب الدقيق لردود الفعل التي تنتجها هذه النماذج.

تنقسم ردود الفعل إلى قرارين مترابطين: الكشف (Detection) - والذي يحدد ما إذا كان يجب اعتبار المحتوى الوارد موثوقًا - والتوليد الشرطي (Conditional Generation) - والذي يتمثل في ما يجب إنتاجه إذا لم يكن المحتوى موثوقًا.

تظهر الأبحاث التي غطت تسع خلايا تجريبية عبر أربعة عائلات من النماذج ومنصات تقييم مختلفة، أن معدل الأخطاء الشرطية يتراوح بين 53-94%، في حين أن معدل الكشف يتباين بشكل كبير حسب الظروف.

هذا التفسير موحد للأربعة ظواهر المدروسة ويميز عتبة الكشف كخصيصة ثابتة على مستوى النموذج/البروتوكول. تتيح هذه الرؤية الجديدة للمجتمع الأكاديمي والفني فهمًا أفضل لكيفية عمل نماذج اللغات الضخمة وتحدياتها المستمرة.