شهد عالم الذكاء الاصطناعي (AI) تطوراً ملحوظاً مع إجراء أول مقارنة مباشرة بين نظامين متقدّمين، كود كلود (Claude Code) من أنثروبيك وكودكس (Codex) من أوبن أي آي. تم تكليف كلا النظامين بتنفيذ وتحليل بيانات تجريبية حول موجات الجاذبية باستخدام تلسكوب أينشتاين بشكل مستقل ودون تدخل بشري.

بدأت التجربة بتصميم سير عمل يتضمن تقدير الكثافة الطيفية من ضجيج محاكي، وتوليد بنك قوالب هندسية، واسترجاع إشارات متعددة من الثقوب السوداء، وإنتاج النتائج تلقائياً، وصياغة مسودة بحثية بأسلوب مراجعة الفيزياء (Physical Review D). تم تزويد كلا النظامين بمواصفات مكتوبة وموارد حاسوبية متطابقة.

في التجربة، حدثت عمليتان: الأولى باستخدام إشارات صاخبة بشكل غير واقعي، والأخرى مع إشارات تم تعديلها لتناسب نطاق نسبة إشارة إلى ضجيج (SNR) المدعوم علمياً. بينما توافقت النتائج العلمية في كلا العمليتين، تظهر السلوكيات والتكاليف الحاسوبية اختلافات كبيرة: حيث أنهى كود كلود العملية في نحو 3.4 دقيقة مع انحرافات صامتة عن المواصفات، بينما احتاج كودكس إلى حوالي 16 دقيقة مع إعادة تشغيل تصحيح ذاتية متعددة.

الأوراق البحثية الناتجة من كلا النظامين اختلفت بشكل ملحوظ في الطول والتفاصيل والجودة. وفي العملية الثانية، أدت اختلافات دقيقة في تفسير تعليمات نطاق SNR إلى تفاوت علمي حقيقي: حيث أعاد كود كلود تفسير التعليمات بصمت بينما اتبع كودكس النص الحرفي.

تشير هذه الفروق في السلوك، مثل السرعة مقابل إمكانية التدقيق، والتعامل مع الأخطاء بصمت مقابل الشفافية، وتفسير التعليمات، إلى أهمية تمثيلات البيانات الوسيطة في أنظمة متعددة النماذج لأعمال الحوسبة العلمية. إن هذه النتائج تعتبر وثيقة الصلة بتطبيقات الذكاء الاصطناعي في مجالات العلوم وتجعلنا نتساءل عن كيفية تحسين عمل هذه الأنظمة في المستقبل.