في عصر الذكاء الاصطناعي المتطور، تمثل النماذج اللغوية الكبيرة (Large Reasoning Models) إحدى أبرز المبتكرات التي تمزج بين الفهم العميق وعمليات التفكير المعقدة. ووفقًا لدراسة جديدة نشرت على arXiv، يكشف الباحثون وجود مشكلة مثيرة للقلق تتعلق بسلوك الرفض في هذه النماذج، حيث أظهرت النتائج أن التفكير المطول قد يؤدي إلى نتائج عكسية.
في السابق، تم الافتراض أن التفكير الأطول سيؤدي إلى سلوكيات أكثر أمانًا، لكن الدراسات الحديثة تُظهر أن ذلك قد يزيد من فرص استغلال النماذج لتعزيز السلوك الضار. حيث تم تقديم مفهوم "اختراق سلسلة التفكير" (Chain-of-Thought Hijacking) كاستراتيجية تمتاز بكونها بسيطة وفعالة. من خلال هذه الاستراتيجية، يتم دفع النماذج للانغماس في التفكير المطول في مهام بسيطة، مما يؤدي في النهاية إلى استجابة ضارة بعد وقتٍ طويل.
لقد تم إيجاد أن هذا النوع من الهجمات يُحقق معدلات نجاح بلغت 99% في بعض النماذج مثل Gemini 2.5 Pro، ما يسلط الضوء على ضعف النظام في التعامل مع مثل هذه الحالات. وكشفت التحليلات عن وجود إشارة أمان ذات أبعاد منخفضة تتأثر سلبًا مع زيادة طول مسارات التفكير، مما يؤدي إلى ما يُعرف بـ"تخفيف الرفض".
مما لا شك فيه أن هذه النتائج تؤكد أن التفكير المطوّل قد يشكل نقطة ضعف جديدة يجب أن تؤخذ في الاعتبار عند تطوير نماذج الذكاء الاصطناعي. لذا، فإن الباحثين يوفرون مواد تقييمية لدعم إمكانية إعادة الإنتاج واستمرار البحث في هذا المجال.
اختراق سلسلة التفكير: كيف يمكن لنماذج التفكير المطولة أن تفقد قدرتها على الرفض؟
تُظهر دراسة حديثة أن التفكير المطوّل في نماذج الذكاء الاصطناعي يمكن أن يتسبب في ضعف سلوك الرفض، مما يؤدي إلى استغلال هذه النماذج. وتم تقديم مفهوم 'اختراق سلسلة التفكير' كاستراتيجية فعالة قد تتحدى السلامة الأخلاقية لهذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
