في عصر يتسارع فيه استخدام الذكاء الاصطناعي، تبرز الأسئلة حول قدرات نماذج اللغة الكبيرة (Large Language Models) وما يمكن أن تقدمه للمطورين. من أحدث الدراسات المثيرة، تم إجراء بحث حول قدرة هذه النماذج على فهم وتطوير كود البرمجيات بلغة راست (Rust).

تقدم الدراسة نتائج مثيرة حيث تم تصميم مجموعة اختبار جديدة تُدعى VeruSAGE-Bench، تتألف من 849 مهمة إثبات تم استخراجها من ثمانية أنظمة مفتوحة المصدر والتي تم التحقق من صحتها باستخدام Verus. هذه المجموعة تمنح الباحثين وسيلة فعالة لتقييم أداء نماذج الذكاء الاصطناعي المختلفة.

عبر تصميم أنظمة مختلفة من الوكلاء لتناسب نقاط القوة والضعف في نماذج اللغة الكبيرة مثل o4-mini وGPT-5 وSonnet 4 وSonnet 4.5، توصل فريق البحث إلى نتائج مذهلة. حيث أظهر أفضل مزيج من نماذج الذكاء الاصطناعي الوكلاء القدرة على إنهاء أكثر من 80% من مهام التحقق، بالإضافة إلى إنهاء أكثر من 90% من مجموعة أخرى من مهام إثبات النظام التي لم ينهِها الخبراء بعد.

هذا الأمر يفتح آفاقًا جديدة لاستخدام نماذج الذكاء الاصطناعي في تطوير البرمجيات الموثوقة، مما يوفر أداة قوية للمطورين. إذا تمكنت نماذج اللغة من تحقيق هذه النتائج، فما الذي يمكن أن يقدمه المستقبل من تقنيات متطورة؟

هذا البحث يلقي الضوء على الإمكانيات الهائلة لتعاون الذكاء الاصطناعي مع المطورين لضمان إنشاء برمجيات آمنة وموثوقة. هل أنتم متحمسون لهذا التطور في عالم البرمجيات؟ شاركونا آرائكم في التعليقات!