شهدت نماذج اللغات الضخمة (Large Language Models) تطوراً ملحوظاً في مجالات متعددة، خاصةً في تطوير البرمجيات. ومع ذلك، فإن التحدي الأبرز الذي يواجه هذا التطور هو فهم المعمارية البرمجية اللازمة للمشاريع الحقيقية. غالبًا ما يكون تقييم هذا الفهم يدويًا عملية مكلفة جدًا، ويصعب التحقق منها عبر الاختبارات فقط.

في دراسة حديثة، اقترح الباحثون نهجاً مبتكرًا يعتمد على استخدام آلية حكم آلي تجمع بين قوة نماذج اللغات الضخمة وخبرة المتخصصين. يتكون هذا النظام من قاضيين: قاضي تعقيد المعمارية (Architecture Complexity Judge - ACJ) الذي يقدر فهم المعمارية المطلوبة لمهمة معينة، وقاضي جودة المعمارية (Architecture Quality Judge - AQJ) الذي يقيم مدى توافق التعديلات مع المعايير المعمارية الخاصة بالمستودع.

لقد تم تحسين نموذج Qwen3-8B/14B/32B على مدار 3,360 حالة تم تنسيقها بشكل دقيق، مما أدى إلى تحقيق معدلات نجاح تصل إلى 27.2% في اختبار SWE-bench Verified. تظهر النتائج تحسيناً كبيراً يزيد عن 540% مقارنة بالنموذج الأساسي و256% مقارنة بالتدريب غير المصفى. بالإضافة إلى ذلك، نجحت النماذج المدربة في تحسين القدرة على التعميم عبر اللغات المختلفة وجودة التعديلات المعمارية.

باختصار، يبدو أن هذا الابتكار قد يغير قواعد اللعبة في طريقة تطوير البرمجيات، حيث يتيح تقييمًا أكثر دقة وفعالية للفهم المعماري المطلوب من خلال الاستفادة من القوة المفتاحية لنماذج اللغات الضخمة.