في عالم يتقدم بسرعة [نحو](/tag/نحو) الذكاء الاصطناعي، لم تخلُ [الأبحاث](/tag/الأبحاث) من مغامرات مثيرة تتناول فعالية هذه [التقنية](/tag/التقنية) في مجالات متعددة. في أحدث الدراسات التي نشرتها شركة Anthropic، تم الجمع بين ادعاءات قياسية وقصص واقعية حول [اكتشاف](/tag/اكتشاف) [الأخطاء](/tag/الأخطاء) [عبر](/tag/عبر) [أنظمة](/tag/أنظمة) التشغيل الشهيرة بما في ذلك OpenBSD، FreeBSD، Linux، FFmpeg، والمتصفحات.

تقرير هذه الورقة يروي تفاصيل تجربة تمت تحت إشراف دقيق لتقييم مدى قدرة [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) على إعادة [اكتشاف](/tag/اكتشاف) الملفات المستهدفة في ستة مهام تتعلق بأنظمة مرتبطة بمشروع [Mythos](/tag/mythos). كل [نموذج](/tag/نموذج) تلقى نفس الملف أو الملفات المستهدفة، مع [أدوات](/tag/أدوات) مصدرية للقراءة فقط، وتم تكرار كل مهمة ثلاث مرات. تشدد [التجربة](/tag/التجربة) على أن الموجهات تم استبعادها من أي تعريفات للأخطاء (CVE identifiers) أو [نصوص](/tag/نصوص) للإعلانات أو أسماء المؤلفين.

أسفرت [التجربة](/tag/التجربة) عن 54 محاولة مصنفة من [نماذج](/tag/نماذج) مختلفة، حيث حقق [نموذج [GPT-5](/tag/gpt-5).5](/tag/[نموذج](/tag/نموذج)-gpt-55) xhigh تصنيفًا مرموقًا بست محاولات ناجحة من ثمانية عشر، بينما حقق [نموذج Claude](/tag/[نموذج](/tag/نموذج)-claude) [Opus 4.7](/tag/opus-47) نجاحًا واحدًا، في حين لم تنجح [نموذج](/tag/نموذج) Kimi K2 في [اكتشاف](/tag/اكتشاف) أي [أخطاء](/tag/أخطاء).

التحدي الرئيسي الذي تواجهه [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) هو [الالتزام](/tag/الالتزام) المبكر بمرشحات محتملة ضمن الملف المعين، مما يعكس عجزها في قراءة [البيانات](/tag/البيانات) بشكل دقيق واكتشاف ما يتطلبه الدليل العام لإصلاح [الأخطاء](/tag/الأخطاء) المتوقعة. ورغم هذه النتائج، لا تدحض [التجربة](/tag/التجربة) [سير العمل](/tag/سير-العمل) السري لشركة Anthropic، بل تُظهر أن الطرق الخاصة بالنماذج تحديدًا ليست كافية في هذا [السياق](/tag/السياق).

من الواضح أن [البحث](/tag/البحث) مستمر لتوسيع آفاق استخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في تصحيح الأخطاء، مما يفتح المجال لابتكارات جديدة في [العالم الرقمي](/tag/العالم-الرقمي).