تشير الأبحاث الحديثة إلى أن نماذج التفكير الكبيرة (Large Reasoning Models) أثبتت كفاءتها في معالجة المهام المعقدة، لكنها في الوقت نفسه تُظهر ضعفاً كبيراً في الاستجابة لبعض الاستفسارات الضارة. يقوم هذا البحث الجديد باستكشاف الجذور العميقة لهذه المخاطر الأمنية، حيث يكشف أن المشكلة تكمن في الهيكل نفسه لعملية التفكير.

بناءً على هذه النتائج المهمة، يدعي الباحثون أن تحقيق توافق أمان فعال يمكن أن يتم من خلال تعديل هيكل التفكير. حيث تم اقتراح طريقة جديدة تُدعى 'AltTrain'، وهي تقنية بسيطة لكنها فعالة لتعديل الهيكل الفكري لنماذج الذكاء الاصطناعي بعد مرحلة التدريب.

تعتمد طريقة AltTrain على إعادة التدريب بإشراف بسيط، بدون الحاجة إلى تعقيدات تدريب التعزيز (Reinforcement Learning) أو تصميم مكافآت معقدة، حيث تتطلب فقط مجموعة تدريب مكونة من 1000 مثال خفيف.

تظهر التجارب التي تم إجراؤها على نماذج متنوعة من نماذج التفكير الكبير قوة توافق الأمان، بالإضافة إلى قدرة النموذج على التعميم بشكل قوي عبر مهام متنوعة مثل التفكير، الإجابة على الأسئلة (QA)، والتلخيص، وحتى في المواقف متعددة اللغات.

إن أهمية هذه الدراسة تنبع من كونها تمثل خطوة هامة نحو ضمان تفاعل أكثر أماناً وثقة مع الذكاء الاصطناعي. لذا، هل أنتم متحمسون للتطورات المرتبطة بهيكل التفكير في نماذج الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!