في خضم التطورات المتسارعة في مجال الذكاء الاصطناعي، تبرز الحاجة إلى تقييم فعالية نماذج اللغة الكبيرة (Large Language Models) في مهمات معقدة مثل اتخاذ القرارات المعمارية في تطوير البرمجيات. هناك استخدام متزايد لهذه النماذج لمساعدة المطورين، ولكن تظل القدرة على التفكير في بنية البرمجيات غير مقاسة إلى حد كبير.

مؤخراً، تم تقديم معيار SAKE (Software Architectural Knowledge Evaluation)، وهو معيار موحد وقابل لإعادة الإنتاج مصمم خصيصًا لتقييم المعرفة المعمارية في هذه النماذج. يتضمن SAKE 2154 سؤالاً تم إعدادها بعناية من قبل خبراء، كل منها يحتوي على أربع خيارات، وتم تصنيفها عبر ثماني فئات معمارية وأربعة مستويات لطول السياق.

لقد أجرينا تقييمًا لـ 11 نموذجًا مختلفًا، سواء كانت مغلقة الملكية أو مفتوحة، في أوضاع صفرية (zero-shot) وخمسة (five-shot). بينما كانت الدقة الإجمالية عالية، إلا أن الأداء تباين بشكل ملحوظ بين الفئات، مما يكشف عن فجوات في الكفاءة في مجالات رئيسية تمثل تحديات حقيقية للممارسات المهنية.

ساكنة المعايير، نصوص التقييم، وجميع النتائج متاحة كمصدر مفتوح، مما يوفر للمجتمع قاعدة بيانات لمتابعة قدرة التفكير المعماري في نماذج اللغة الكبيرة. مع هذا التطور، يتعزز الأمل في إنتاج أدوات ذكاء اصطناعي أكثر ذكاءً، قادرة على دعم المطورين بطرق لم يسبق لها مثيل.