في عالم الذكاء الاصطناعي، تبرز نماذج اللغة العملاقة (LLMs) كأدوات قوية تعمل كعملاء مستقلين في بيئات متنوعة. لكن مع تزايد استخدامها، زادت الحاجة إلى مراقبة موثوقة توضح ليس فقط ما تُنتجه هذه الأنظمة، بل أيضاً التعليمات التي توجه سلوكها. وهنا يأتي دور التقنية الجديدة، PRISM.

يتمثل التحدي الكبير في أن هذه النماذج قد تستنتج أهدافًا فرعية غير مقصودة أو تتبع إشارات سياقية أو تتأثر بحقن التعليمات المخفية. لذا، فإن أساليب الربط بين النشاطات والتفسير اللغوي بحاجة ماسة إلى تحسين، حيث لا تتيح تلك الأساليب إمكانية استعادة مجموعة كاملة من التعليمات والنواهي والأهداف الفرعية الفعالة بشكل متزامن.

تقدم PRISM حلاً مبتكراً من خلال كونها مُفسراً مشروطاً بالنشاطات، حيث تقوم بفك شفرات الحالات الخفية من نموذج مستهدف تم تجميده، لإنتاج قائمة واضحة وموثوقة من التعليمات النشطة. وبدلاً من الاعتماد على الأساليب السابقة، تسعى PRISM لاستعادة مجموعات التعليمات مباشرة من خلال تعزيز التعليمات المغطاة ومعاقبة غير المدعومة باستخدام GRPO المعتمد على الحكم.

مع استخدام PRISM في بيئات مختلفة، بدءًا من الإعدادات الخيرية، والموضوعة تحت القيود، وصولًا إلى حالات حقن التعليمات والأهداف المخفية، تُظهر النتائج أنها تتفوق على المعايير السابقة وتبرز بشكل خاص في تحقيق الأهداف المتعلقة بالأمان.

إن PRISM تمثل تقدمًا مثيرًا في فهم كيفية عمل نماذج الذكاء الاصطناعي وتوجيهها، مما يمكن الباحثين والمطورين من تعزيز أمان وموثوقية الأنظمة التي يعتمدون عليها.