يُعتبر التحليل النوعي أداة حيوية لفهم الجوانب الإنسانية والاجتماعية في مجال هندسة البرمجيات. رغم ذلك، يواجه هذا النوع من التحليل تحديات عديدة، تتعلق بتفسير الباحثين الذاتيين وقرارات المنهجية، بما في ذلك تصميم المطالبات (prompt design).

توضح الأبحاث الأخيرة أن النماذج اللغوية الضخمة (Large Language Models) أتاحت فرصاً واعدة لدعم هذا النوع من التحليل، لكن لا تزال موثوقيتها في إعادة إنتاج التفكير النوعي البشري تحت ظروف متعددة من تصميم المطالبات غير مُختبرة بشكل كبير. في هذا السياق، قدمت دراسة جديدة تقييمًا تجريبيًا محكومًا لثلاث نماذج لغوية وهي: Claude Haiku وDeepSeek-Chat وGemini 2.5 Flash، مع التركيز على استراتيجيتين لتصميم المطالبات: الصفرية (zero-shot) والمتعددة (multi-shot closed coding).

استخدمت الدراسة معيار الكابا لكوهين لتحديد مستوى الاتفاق عبر عشر تجارب مستقلة لكل إعداد. أظهرت النتائج أن استخدام المطالبات المتعددة قد حسّن بشكل ملحوظ من درجة الاتفاق لنموذج Claude Haiku (Delta kappa = +0.034، Wilcoxon p = 0.004)، بينما لم يُظهر DeepSeek-Chat وGemini 2.5 Flash نفس التحسن.

تفاوت الاستقرار داخل النموذج بشكل كبير، حيث أظهرت النماذج DeepSeek-Chat وClaude Haiku أقل تباين، في حين كان Gemini 2.5 Flash الأكثر عدم استقرار. بالإضافة إلى ذلك، تم التعرف على انحياز منهجي لتوقع "تبادل التعليقات السلبية" عبر جميع النماذج (نسب انحياز تصل إلى 5.25x)، بالإضافة إلى التوقع تحت المستوى لـ"التعبير عن المخاوف".

تمثل هذه الاكتشافات دليلاً تجريبيًا قويًا لإرشادات تصميم المطالبات في تحليل البيانات النوعية باستخدام النماذج اللغوية الضخمة، مما يسهم في تحسين البحث في مجال هندسة البرمجيات.