في عالم تطوير البرمجيات، تُظهر نماذج اللغة الكبيرة (Large Language Models) أداءً رائعًا في توليد الشفرات البرمجية بشكل تلقائي عند وجود مواصفات غير صارمة. ومع ذلك، فإن البرمجيات الإنتاجية تحتاج إلى الالتزام الدقيق بالقيود الهيكلية مثل الأنماط المعمارية، وقواعد البيانات، وخرائط الكائنات العلائقية. للأسف، كثيرًا ما تتجاهل المعايير الحالية هذه المتطلبات غير الوظيفية، مما يمنح الأفضليات للحلول الصحيحة وظيفيًا ولكنها اعتباطية هيكليًا.

في دراسة منهجية، قمنا بتقييم كيفية تعامل نماذج اللغة الكبيرة مع القيود الهيكلية في عمليات توليد الشفرات البرمجية الخلفية التي تضم عدة ملفات. من خلال تثبيت عقد واجهة برمجية موحدة عبر 80 مهمة توليد جديدة و20 مهمة تنفيذ ميزات عبر ثمانية أطر ويب، تمكنا من عزل تأثير التعقيد الهيكلي باستخدام تقييم مزدوج مع اختبارات سلوكية شاملة ومتحققات ثابتة.

كشفت النتائج عن ظاهرة تُعرف بتراجع القيود: مع تراكم المتطلبات الهيكلية، يظهر تدهور كبير في أداء النماذج. فقدت التكوينات القادرة حوالي 30 نقطة في معدلات نجاح التأكيد من المهام الأساسية إلى المهام المحددة تمامًا، بينما اقتربت بعض التكوينات الأضعف من الصفر.

أظهر تحليل حساسية الأطر وجود تفاوتات ملحوظة في الأداء: إذ تنجح النماذج في الأطر البسيطة والواضحة (مثل Flask) ولكنها تؤدي بشكل أسوأ في البيئات التي تعتمد على العرف (مثل FastAPI وDjango). وأخيرًا، أظهر تحليل الأخطاء أن defects على مستوى البيانات، مثل تكوين الاستعلامات بشكل غير صحيح وانتهاكات وقت التشغيل لـ ORM، كانت من أبرز الأسباب الجذرية لهذه التحديات.

تُبرز هذه الدراسة أن الاستجابة المجتمعة لمتطلبات وظيفية وهيكلية ستظل تحديًا مفتوحًا رئيسيًا لوكلاء البرمجة.