أصبح استخدام المساعدين المعتمدين على نماذج اللغات الضخمة (Large Language Models) أمرًا شائعًا في عالم تطوير البرمجيات. ومع ذلك، تركز معايير التقييم الحالية بشكل حصري على مدى صحة الوظائف، مما يترك فجوة حيوية في تقييم جودة ودقة تلك المحادثات، خصوصًا عند التعامل مع المتطلبات غير الوظيفية (NFRs) التي تعتبر غامضة وتعتمد على السياق.

في هذا السياق، أجرى الباحثون دراسة دقيقة على 49 مبرمجًا للتفاعل مع GitHub Copilot بهدف تقييم 148 متطلبًا غير وظيفي مستمدًا من قانون قابلية نقل التأمين الصحي والمساءلة (HIPAA). تم تقييم النتائج عبر ثلاث أبعاد رئيسية: مستوى رضا المتطلبات، التفكير المنطقي، وتحديد مكان الكود.

تشير النتائج إلى أن المطورين يميلون إلى توافق مع تقييمات نماذج اللغة، لكن الدقة مقارنةً بالحقائق التي يحددها الخبراء كانت منخفضة. تبرز الدراسة أيضًا أن ردود الأنظمة الأطول وتعدد المعلومات قد يؤثر سلبًا على رضا المستخدمين، بينما التفاعلات الاستباقية تدعم الرضا الإيجابي.

تقدم هذه النتائج رؤى مهمة لتصميم أنظمة الحوار المعتمدة على نماذج اللغة لدعم تقييم المتطلبات غير الوظيفية، مما يفتح المجال لتحسينات مستقبلية في هذا المجال المتطور.