في عالم الذكاء الاصطناعي الحديث، تلعب نماذج اللغة الكبيرة (Large Language Models) دورًا محوريًا في تحويل كيفية تفاعلنا مع التكنولوجيا. ومع ذلك، يعاني العديد من هذه النماذج من مشكلة "الرفض المفرط" (Overrefusal)، حيث ترفض بشكل غير warranted الاستفسارات البسيطة التي قد تبدو خطرة.

لذلك، تم تقديم نظام DDOR (Delta Debugging for OverRefusal) كإطار تعليمي وتفاعلي بشكل كامل يهدف إلى معالجة هذه المشكلة. يعمل DDOR في بيئة مغلقة حيث يمكن الوصول فقط للمدخلات والمخرجات، مما يجعل آليات الأمان الداخلية غير شفافة. يعتمد هذا النظام على تقنية تصحيح دلتا (Delta Debugging) لتحديد أجزاء الرفض التي تؤدي لقرارات غير صحيحة، مع توفير أدلة تفسيرية على مستوى العبارات تشرح سبب الرفض.

مع التركيز على هذه الأجزاء، يقوم DDOR بتوليد استفسارات غنية بالسياق وإجراء تقييمات متعددة للمرجعية من أجل تصفية الحالات الغامضة أو غير الآمنة، مما ينتج عنه مجموعات اختبار للرفض المفرط تحتوي على ما يصل إلى 1000 حالة لكل نموذج.

علاوة على ذلك، يمكن استغلال أجزاء الرفض المحددة لإجراء إصلاحات مستهدفة على الاستفسارات، مما يقلل من الرفض المفرط بشكل ملحوظ دون التأثير على النية الأصلية أو الأمان عند معالجة المدخلات الخطرة.

بإجماله، يوفر DDOR حلاً عمليًا وشاملاً لتقييم وتصحيح ظاهرة الرفض المفرط، مما يحسن من قابلية استخدام نماذج الذكاء الاصطناعي دون المساس بمعايير الأمان المطلوبة.