في عالم الذكاء الاصطناعي، تعتبر نماذج التفكير الكبيرة (Large Reasoning Models) أحد المحاور الأساسية التي تثير اهتمام الباحثين. لكن هذه النماذج تأتي مع تحدياتها، حيث تنتج "آثار تفكير" (Reasoning Traces) قد تحتوي على معلومات حساسة تتطلب التحكم الدقيق.
تحدث التسريبات المعلوماتية التي تنشأ من هذه الآثار عن قلق كبير بشأن خصوصية المستخدم، خاصة في ظل الهجمات التي تعتمد على حقن الأوامر (Prompt Injection). لذلك، تم التعامل مع هذه القضية باعتبارها مشكلة من حيث القدرة على التحكم، إذ أن تعليمات الخصوصية نفسها تعتبر توجيهات، مما يتيح لنا تحسين عملية اتباع التعليمات (Instruction-Following) كوسيلة لتقليل هذه التسريبات.
لتحقيق ذلك، تم تقديم مجموعة بيانات جديدة تُعرف باسم SFT، والتي تهدف لتعليم النماذج كيفية اتباع التعليمات العامة خلال عملية التفكير. كما تم اقتراح استراتيجية جديدة تُعرف باسم "التشفير المرحلي" (Staged Decoding)، والتي تفصل بين توليد الآثار والأجوبة باستخدام محولات LoRA منفصلة؛ مما يعزز من قدرة النموذج على اتباع التعليمات لكل من المكونين بشكل فعال.
تم تقييم هذا النهج على ستة نماذج من عائلتين مختلفتين (مع عدد من المعاملات يتراوح بين 1.7 مليار إلى 14 مليار)، عبر معيارين لقياس اتباع التعليمات وآخرين للخصوصية. أظهرت النتائج تحقيق تحسينات ملحوظة، مع زيادة تصل إلى 20.9 نقطة في مستوى اتباع التعليمات و51.9 نقطة مئوية في معايير الخصوصية. إلا أن هذه النتائج قد تأتي على حساب أداء المهام، حيث توجد صعوبة ضمن التوازن بين أداء التفكير واتباع التعليمات.
بالتالي، تشير النتائج إلى أن تحسين قدرة النماذج الكبيرة على اتباع التعليمات يمكن أن يعزز بشكل كبير من مستوى الخصوصية، مما يفتح الطريق نحو تطوير نماذج واعية للخصوصية بشكل أكبر في المستقبل.
من أفكار متسربة إلى تفكير خاص: كيف نتحكم فيما تقوله النماذج الكبيرة
تتناول الدراسة الجديدة كيفية التحكم في المعلومات الحساسة التي تنتجها نماذج التفكير الكبيرة. من خلال تحسين اتباع التعليمات، يمكن تقليل تسرب المعلومات الخاصة والحفاظ على خصوصية المستخدمين.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
