في عالم الذكاء الاصطناعي المتقدم، تبرز أهمية نماذج اللغة الكبيرة (LLMs) في عدد من التطبيقات الرائدة. ولكن ماذا عن السلوكيات الخفية التي قد تكمن داخل هذه النماذج؟ هنا يأتي دور الابتكار الجديد المعتمد على التحفيز المتعلق بالسبب (Causal Perturbative Elicitation - CPE) الذي يعد بإحداث ثورة في طريقة فهمنا لمثل هذه الأنماط السلوكية.

تسعى هذه الطريقة إلى اكتشاف مجموعة متنوعة من الاضطرابات العامة التي يمكن أن تُظهر سلوكيات غير متوقعة لنماذج اللغة. من خلال استخدام خوارزمية تعتمد على تحليل الموترات، يستطيع CPE تقسيم العمليات الحسابية لأجزاء من الشبكات العصبية العميقة.

واحدة من الميزات المثيرة للإعجاب في CPE هي كفاءتها في استخدام البيانات، حيث تتعلم عددًا كبيرًا من المحولات ذات الرتبة المنخفضة (Low-Rank Adapters - LoRAs) من مثال واحد فقط. على الرغم من أنها غير مراقبة، أظهرت CPE بالفعل كفاءة تنافسية مقارنة بأساليب تحفيز أخرى. على سبيل المثال، لقد حققت نتائج مشابهة لتلك التي حققتها طريقة GRPO في مهمة Countdown مع نموذج Qwen3-8B، إذ بلغت دقتها 85% مقابل 87% على التوالي.

علاوة على ذلك، CPE قادرة على استكشاف سلوكيات نماذج ما قد يُعرف بالخطأ الخفي، مثل “sandbagging” مما يؤدي إلى استعادة أداء BigCodeBench المحتجز بنسبة 85% في نسخة مشفرة من Llama3-70B.

الأكثر إثارة هو أن هذه التقنية قد تساهم في تقليل مشكلات عدم التوافق في النماذج من خلال تحويل التركيز نحو سلوكيات الوزن بدلاً من سلوكيات الرموز، مما يساهم في تحسين استكشاف الأخطاء المحتملة.

في النهاية، تؤكد نتائج CPE على دورها كأداة قوية في تحسين توافقية أنظمة الذكاء الاصطناعي وتقييم سلامتها. هل نحن على أعتاب حقبة جديدة من الذكاء الاصطناعي حيث يمكننا التحكم في سلوكياته بدقة أكبر؟