تستند المدربون الذكيون لتعليم الذكاء الاصطناعي في عصرنا الحالي إلى نموذج محوري يتعلق بمحاذاة الذكاء الاصطناعي مع رغبات المستخدم. حيث يتوجب عليهم الالتزام بنوايا المستخدمين وفي ذات الوقت المحافظة على معايير تعليمية صارمة وسياستهم الأمنية. في هذا السياق، نقدم منهجية تقييم فعالة لدفاعات حقن الأوامر (Prompt Injection) المستخدمة في هذه الأنظمة.

تظهر النتائج أن تصميم الحواجز يتطلب موازنة فعّالة بين القدرة على تصدي الهجمات (adversarial robustness) وسهولة التشغيل لمهام الاستخدام البسيطة (benign-task usability) وزمن استجابة النظام (response latency). وقد تم تقييم نظام حماية متقدم يتكون من عدة طبقات، يشمل فلاتر أنماط محددة، والتحقق الهيكلي، وعزل السياق، وفحوصات سلوكية على مستوى الجلسة.

في دراسة مبنية على نموذج تحكم مع 480 استفسار (369 طلب حقن و111 طلب عادي)، أظهر النظام نجاحاً بنسبة 46.34% في تصدي الهجمات مع معدل زيفٍ إيجابي 0.00% وزمن استجابة متوسط قدره 2.50 مللي ثانية. يُظهر هذا التصميم أولوية في تقديم دراسة استخدام تعليمية خالية من الزيف الإيجابي مع الحفاظ على مقاومة ملحوظة للهجمات.

بالإضافة إلى ذلك، نقدم بروتوكولاً معيارياً يُمكن تكراره للمقارنة المباشرة تحت ظروف موحدة، مثل فترات الثقة المعززة ومختبارات الأهمية المباشرة. حيث تكشف النتائج عن Trade-offs التشغيلية، حيث يحقق نموذج NeMo نسبة 0% في تجاوز الحواجز مع معدل زيف إيجابي يبلغ 16.22% وزمن استجابة يبلغ 1.3 ثانية، بينما يُظهر نموذج Prompt Guard نسبة تجاوز 38.48% مع 3.60% لمعدل الزيف الإيجابي.

يدعم هذا الإطار اختيار الحواجز المعتمدة على الأدلة للأنظمة التعليمية الذكية وفقًا لمتطلبات المخاطر وسهولة الاستخدام المختلفة بالمؤسسات التعليمية.