أصبح استخدام المساعدين المعتمدين على نماذج اللغات الضخمة (Large Language Models) أمرًا شائعًا في عالم تطوير البرمجيات. ومع ذلك، تركز معايير التقييم الحالية بشكل حصري على مدى صحة الوظائف، مما يترك فجوة حيوية في تقييم جودة ودقة تلك المحادثات، خصوصًا عند التعامل مع المتطلبات غير الوظيفية (NFRs) التي تعتبر غامضة وتعتمد على السياق.
في هذا السياق، أجرى الباحثون دراسة دقيقة على 49 مبرمجًا للتفاعل مع GitHub Copilot بهدف تقييم 148 متطلبًا غير وظيفي مستمدًا من قانون قابلية نقل التأمين الصحي والمساءلة (HIPAA). تم تقييم النتائج عبر ثلاث أبعاد رئيسية: مستوى رضا المتطلبات، التفكير المنطقي، وتحديد مكان الكود.
تشير النتائج إلى أن المطورين يميلون إلى توافق مع تقييمات نماذج اللغة، لكن الدقة مقارنةً بالحقائق التي يحددها الخبراء كانت منخفضة. تبرز الدراسة أيضًا أن ردود الأنظمة الأطول وتعدد المعلومات قد يؤثر سلبًا على رضا المستخدمين، بينما التفاعلات الاستباقية تدعم الرضا الإيجابي.
تقدم هذه النتائج رؤى مهمة لتصميم أنظمة الحوار المعتمدة على نماذج اللغة لدعم تقييم المتطلبات غير الوظيفية، مما يفتح المجال لتحسينات مستقبلية في هذا المجال المتطور.
ثورة الذكاء الاصطناعي: قياس دقة ورضا المحادثات متعددة الجولات لتقييم المتطلبات غير الوظيفية!
يكشف البحث الجديد عن تأثير المحادثات متعددة الجولات بين المطورين وعوامل الذكاء الاصطناعي في تقييم المتطلبات غير الوظيفية (NFRs). النتائج تكشف عن فجوات في الدقة ورضا العملاء، مما يؤدي إلى آفاق جديدة في تصميم أنظمة الحوار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
