ما هو دوال غيج؟
دوال غيج هو أول إطار آلي بالكامل يهدف إلى تقييم الأداء الخاص بالكود الذي يتم توليده بناءً على المواصفات فقط، مدعومًا بمخطط مناسب يحمل اسم دوال غيج-بنش (DualGauge-Bench). يتضمن هذا المخطط 307 مهمة برمجية مقترنة باختبارات وظيفية وأمنية تستند إلى نفس المواصفات، مما يمكّن المطورين من اختبار التوليد بشكل شامل.
اختُبرت 10 نماذج لغة عملاقة تمثل مختلف اللغات الحيوية مثل بايثون (Python)، وجافا سكريبت (JavaScript)، وC++. والأسف، وجدت النتائج أن دقة العمل وصحة الكود قد تم تقديرها بشكل مبالغ فيه، حيث لم تتجاوز الفائدة المشتركة للوظائف والأمان 15% حتى للنماذج الأكثر تقدمًا.
كما أظهرت الدراسة أن العوامل الشائعة، مثل حجم النموذج وعمق التفكير وتخصيص التعليمات، لا تُحسن الأداء بشكل موثوق. مما يعني أن القدرة على إنتاج كود آمن وصحيح لا تنبع ببساطة من تقنيات البرمجة الأكثر قوة.
هل يمكن للأنظمة العميلة أن تنقذ الموقف؟
أظهر تحليل آخر للأنظمة البرمجية الرائدة مثل كوديكس (Codex) وOpenHands وClaude Code أن تحسين الأداء من خلال التخطيط المتكرر لا يقدم أي ميزة تفوق التوليد المباشر من نماذج اللغة. تكشف المراجعة النوعية عن أن حالات الفشل تتركز عند الحدود بين المخرجات والحماية الموجودة ولكن غير الكافية، وهي أنماط لا يمكن الكشف عنها إلا من خلال القياس المشترك.
إطار دوال غيج يقدم نقطة انطلاق جديدة في سعي المطورين والتقنيين نحو كود برمجي أكثر أمانًا وموثوقية. في ظل هذه النتائج، يبقى السؤال: هل سنتمكن قريبًا من إنتاج كود آمن وعالي الكفاءة بفضل هذه الابتكارات؟
