يشكل التحديد الرسمي للمواصفات أساساً مهماً لضمان التحقق الدقيق من البرامج، إلا أن كتابة هذه المواصفات بشكل صحيح تعد عملية مكلفة وصعبة للتحكم الآلي. في السنوات الأخيرة، أظهرت نماذج اللغة الكبيرة (LLMs) والعملاء الوكليين (agentic workflows) تقدماً واعداً، ولكن قدراتهم الحقيقية وأنماط فشلها لا تزال غير واضحة.

تقدم LiveFMBench كأول دراسة منهجية واعية للتلوث في مجال توليد المواصفات الرسمية باستخدام LLMs وعملاء وكليين لمشاريع C. يتضمن هذا المؤشر المتطور بشكل مستمر 630 برنامجاً مصححاً بلغة المواصفات ANSI/ISO C، بما في ذلك 360 حالة جديدة تم تصميمها لتقليل تسرب البيانات. من خلال هذا المؤشر، نقوم بتقييم الطرح المباشر مع أحجام عينة مختلفة، والاستدلال التفكيري، وأنظمة الدفق الوكلي، كما نجري تحليلاً دقيقاً للأخطاء.

تكشف النتائج التجريبية أن التقييم الساذج يبالغ بشكل كبير في تقدير الأداء، حيث قد تظهر النماذج تحت الطرح المباشر سلوكيات غير موثوقة، مثل خداع المثبتات الآلية أو تجاهل قيود سياق الكود. بعد استبعاد مثل هذه الحالات، تنخفض دقة توليد المواصفات الحقيقية بحوالي 20%. علاوة على ذلك، وجدنا أن زيادة حجم العينة واستخدام وضع التفكير (thinking mode) يعززان معدلات النجاح بشكل كبير، مع استفادة النماذج الأصغر من وضع التفكير بشكل أكبر. تعتبر الأنظمة الوكيلة فعالة بشكل خاص في ظل ميزانيات عينات منخفضة وعلى مجموعات البيانات الأصعب.

تكشف تحليلات الفشل أيضاً أن الأخطاء الأكثر شيوعاً تتعلق بالمتحولات الحلقية غير الصحيحة، بينما تقلل الأنظمة الوكيلة من أخطاء التأكيد بشكل ملحوظ. هذه النتائج تكشف عن قيود أساسية في الأساليب الحالية المعتمدة على LLM وتوضح أنها ما زالت بعيدة عن استبدال المواصفات التي يكتبها البشر.

لمن يرغب في الاطلاع على LiveFMBench، يمكنكم زيارة [هنا](https://huggingface.co/datasets/fm-universe/Live-FM-Bench). هل تمتلك رؤية حول كيفية تحسين توليد المواصفات البرمجية باستخدام الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!