في عالم الذكاء الاصطناعي، تبدو أهمية النماذج اللغوية الكبيرة (Large Language Models) أكبر من أي وقت مضى، حيث تتسابق الشركات والباحثون إلى استخدام هذه التقنيات في مختلف المجالات. وفوق ذلك، توصل مجموعة من الباحثين إلى نتائج مذهلة تتعلق بكيفية استعادة النوايا الضارة من تدفقات النماذج اللغوية هذه.

أظهرت دراسة جديدة أنه يمكن استعادة النوايا الضارة على شكل اتجاهات خطية عبر معظم الطبقات في النماذج، بالإضافة إلى انحرافات زاوية يمكن تحديدها في الطبقات التي تفشل فيها طرق الإسقاط. تمت التجربة على 12 نموذجاً ينتمون إلى أربع عائلات معمارية مختلفة (مثل Qwen2.5 وQwen3.5 وLlama-3.2 وGemma-3) بالإضافة إلى ثلاثة متغيرات توجيهية. تم تقييمها باللغة الإنجليزية، وأسفرت الدراسة عن تحديد هندسي سليم عبر ست استراتيجيات لتحديد الاتجاهات.

من بين هذه الاستراتيجيات، نجحت ثلاث منها في الوصول إلى نتائج مبهرة. حيث استطاعت الاستراتيجية الأولى، وهي تعديل مستند على AUC الناعم، تحقيق متوسط AUROC قدره 0.98 ونسبة True Positive Rate (TPR) تبلغ 0.80. أما الاستراتيجية الثانية، والتي تعتمد على الكشف عن متوسط الفئات، فسجلت 0.98 و0.71 في تكاليف ملائمة أقل من أقل من 1 مللي ثانية. والشيء المثير هو أن استراتيجية الانحراف الزاوي تحت إشراف إدارة مستهدفة وصلت إلى AUROC يبلغ 0.96.

تتضح هذه النتائج عبر جميع المتغيرات بما في ذلك النماذج التي تم إزالة سلوك الرفض منها بشكل جراحي، مما يدل على أن النوايا الضارة وسلوك الرفض هما ميزتان تفكر بهما النماذج بشكل منفصل. علاوة على ذلك، أظهرت التحليلات أنه حتى عند زيادة حجم النماذج، تبقى نسبة AUROC مستقرة، مما يشير إلى أن هذه النماذج تتعلم التعرف على النوايا الضارة كجزء من فهم اللغة العامة.

في النهاية، تؤكد هذه النتائج على ضرورة تقييم المخاطر بدقة ودقة، حيث إن استخدام AUROC وحده قد يبالغ في تقدير قدرة النماذج على الكشف عن التصرفات الضارة. مما يعني أن نسبة TPR يجب أن تكون جزءًا من التقييم في سياقات الأمان.