في عصر يتم فيه الاعتماد بشكل متزايد على وكالات الذكاء الاصطناعي (AI Coding Agents) لكتابة البرمجيات الواقعية، تبرز قضية التأكد من صحة المخرجات كأحد التحديات الرئيسية التي يجب التغلب عليها. توفر عملية التحقق الرسمي (Formal Verification) مسارًا واعدًا، حيث يتمكن الوكيل من توليد شفرة برمجية مرفقة بإثبات تم التحقق منه بواسطة آلة، مما يضمن توافق الشفرة مع مواصفة رسمية معينة.
لكن، ماذا لو كانت المواصفة الرسمية نفسها لا تعكس النوايا الحقيقية للمستخدم؟ من خلال هذا العمل، نسلط الضوء على مفهوم تحويل المواصفات التلقائي (Specification Autoformalization)، والذي يعني قدرة الوكلاء على تحويل المشكلات البرمجية غير الرسمية إلى مواصفات رسمية دقيقة وموثوقة.
ندعوكم للتعرف على Verus-SpecBench، وهو معيار يضم 581 مهمة لكتابة المواصفات مستمدة من مشكلات Codeforces، والتي تستهدف Verus، وهو أداة تحقق للغة Rust، وVerus-SpecGym، وهي بيئة تفاعلية تتيح للنماذج العمل مع Verus ونظام الشل (Bash) ونظام الملفات لتطوير هذه المواصفات.
التحدي المركزي هنا يتعلق بالتقييم: حيث إن كتابة مواصفات مرجعية بواسطة خبراء هي عملية مكلفة، ويمكن لبعض النماذج أن تفوت أخطاء دقيقة. لقد تناولنا هذا التحدي من خلال توسيع آلية exec_spec الخاصة بـ Verus، مما يسمح بتشغيل المواصفات الناتجة كرمز Rust، واختبارها ضد اختبارات Codeforces الرسمية وحالات معاكسة مستخرجة من "هجمات" Codeforces.
تشير النتائج إلى أن النموذج الأقوى، Gemini 3.1 Pro، ينجح في حل 77.8% من المهمات، بينما النماذج الأخرى تصل إلى نسب تتراوح بين 51.1% و57.8%. كذلك، تظهر تحليلات أوضاع الفشل لدينا أن المواصفات التي تنتجها النماذج قد تتجاهل الافتراضات المهمة للمدخلات أو تقبل مخرجات غير صحيحة أو ترفض مخرجات صحيحة.
إجمالاً، تشير النتائج إلى أن تحويل المواصفات أصبح في متناول الوكالات المتطورة، لكنه لا يزال هشًا في المشكلات التي يمكنها بالفعل توليد شفرة صحيحة. يمكنكم الاطلاع على الشفرة والبيانات والسجلات عبر رابط المشروع. هل تعتقدون أن هذه الابتكارات ستحدث ثورة في جودة البرمجة بواسطة الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
Verus-SpecGym: بيئة مبتكرة لتقييم تحويل المواصفات بدقة!
تُقدم Verus-SpecGym ابتكاراً مذهلاً لتقييم قدرة وكالات الذكاء الاصطناعي على تحويل المشكلات البرمجية غير الرسمية إلى مواصفات رسمية دقيقة. هل يمكن لوكالات الذكاء الاصطناعي التغلب على التحديات الحالية؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
