تساءل العديد من الخبراء: هل يمثل الذكاء الاصطناعي (AI) مجرد أدوات أم أنه مساهم رئيسي في الأبحاث العلمية؟ في دراسة حالة مثيرة، تم تسليط الضوء على تجربة فيزيائي يشرف على نموذج AI يسمى "Claude Code". استغرق المشروع 12 يوم عمل و57 جلسة، حيث كان الهدف هو بناء وحدة CLAX-PT التي تتعلق بنظرية اضطراب واحد في تقنيات JAX.

خلال هذه التجربة، تم توثيق وتصنيف 15 حادثة إشراف، حيث قام النموذج بحل عشرة مسائل بشكل مستقل من خلال الاختبار مقابل معيار مرجعي (oracle tests). لكن ماذا عن القضايا الثلاثة المتبقية؟ تبين أن المشكلة تكمن في أن النموذج كان يعالج تقليل الأعراض كحل جذري، مما أدى إلى قضاء 33 من أصل 57 جلسة في تعديل معاملات ضمن بنية كود لم تُمثل الفيزياء المستهدفة بشكل صحيح.

تختلف النتائج، حيث تكشف التجربة أهمية التصميم الإشرافي، حيث أن القدرة على التحقق من صحة نتائج النموذج تعتمد على ما إذا كان الإشراف مصممًا بشكل جيد. استخدمت طرق إشراف مهمة مثل الاختبار عند نقاط معلمة متنوعة وتداول السجل التغييري للتنبيه عن الاستكشاف المتوقف.

بالنظر إلى المستقبل، يمكن أن يحتاج الذكاء الاصطناعي إلى تقديم بدائل معمارية بدلاً من تحسين ضمن هيكل معين، وهو ما يتطلب انقسامات جديدة في القدرات لا توجد في النموذج الحالي. هل نحن أمام ثورة في طريقة تعاملنا مع الذكاء الاصطناعي في العلوم؟