في عصر الذكاء الاصطناعي، تعد نماذج اللغة العملاقة (Large Language Models) من أهم الابتكارات التي ساهمت في تحويل كيفية توليد الكود البرمجي من مواصفات اللغة الطبيعية. وبالرغم من هذه التطورات، يبقى تحدي التأكد من أن الكود الذي يتم توليده آمنًا ووظيفيًا قائمًا. هنا يأتي دور دوال غيج (DualGauge)، وهو إطار automatisé مبتكر يتمتع بقدرة فريدة على تقييم الجوانب الأمنية والوظيفية لتوليد الكود القائم فقط على المواصفات.

ما هو دوال غيج؟



دوال غيج هو أول إطار آلي بالكامل يهدف إلى تقييم الأداء الخاص بالكود الذي يتم توليده بناءً على المواصفات فقط، مدعومًا بمخطط مناسب يحمل اسم دوال غيج-بنش (DualGauge-Bench). يتضمن هذا المخطط 307 مهمة برمجية مقترنة باختبارات وظيفية وأمنية تستند إلى نفس المواصفات، مما يمكّن المطورين من اختبار التوليد بشكل شامل.

اختُبرت 10 نماذج لغة عملاقة تمثل مختلف اللغات الحيوية مثل بايثون (Python)، وجافا سكريبت (JavaScript)، وC++. والأسف، وجدت النتائج أن دقة العمل وصحة الكود قد تم تقديرها بشكل مبالغ فيه، حيث لم تتجاوز الفائدة المشتركة للوظائف والأمان 15% حتى للنماذج الأكثر تقدمًا.

كما أظهرت الدراسة أن العوامل الشائعة، مثل حجم النموذج وعمق التفكير وتخصيص التعليمات، لا تُحسن الأداء بشكل موثوق. مما يعني أن القدرة على إنتاج كود آمن وصحيح لا تنبع ببساطة من تقنيات البرمجة الأكثر قوة.

هل يمكن للأنظمة العميلة أن تنقذ الموقف؟



أظهر تحليل آخر للأنظمة البرمجية الرائدة مثل كوديكس (Codex) وOpenHands وClaude Code أن تحسين الأداء من خلال التخطيط المتكرر لا يقدم أي ميزة تفوق التوليد المباشر من نماذج اللغة. تكشف المراجعة النوعية عن أن حالات الفشل تتركز عند الحدود بين المخرجات والحماية الموجودة ولكن غير الكافية، وهي أنماط لا يمكن الكشف عنها إلا من خلال القياس المشترك.

إطار دوال غيج يقدم نقطة انطلاق جديدة في سعي المطورين والتقنيين نحو كود برمجي أكثر أمانًا وموثوقية. في ظل هذه النتائج، يبقى السؤال: هل سنتمكن قريبًا من إنتاج كود آمن وعالي الكفاءة بفضل هذه الابتكارات؟