في عصرنا الرقمي، تزداد أهمية استخدام الوكلاء الاجتماعيين المدعومين بنماذج لغوية ضخمة (LLMs) في تقليد السلوك الاجتماعي عبر الإنترنت. ومع ذلك، تظل مسألة مدى واقعية هذه الوكلاء مطروحة للنقاش. في دراسة حديثة، قام الباحثون بتقييم ردود الفعل التي تولدها نماذج اللغة عند تفاعلها مع الأخبار الإسبانية، للكشف عن مدى قدرتها على محاكاة تفاعلات الجمهور الحقيقي.

اعتمدت الدراسة على مجموعة بيانات (Hatemedia) التي تضمنت 5,631 خبرًا و58,555 رد فعل حقيقي من الجمهور. تم استخدام خمس نماذج لغة تحت بيئات تجربية متقاربة للحصول على بيانات تجريبية مماثلة، ثم تم مقارنة هذه التفاعلات عبر ثلاثة أبعاد: خطاب الكراهية، والعواطف، والتوافق الدلالي.

تشير النتائج إلى أن النماذج الجاهزة (off-the-shelf) تفشل في تقليد ردود فعل الجمهور بشكل موثوق؛ حيث تنتج القليل من خطاب الكراهية، وتدخل تحيزات عاطفية محددة بالنموذج، وتبقى بعيدة عن ردود البشر. كما أظهرت تجربة تحسين النماذج (fine-tuning) نتائج غير متساوية؛ حيث قدم نموذج (Qwen3) أدنى درجة من التوازن، بينما حقق نموذج (Mistral7B) أقوى توافق عاطفي ودلالي، ولكنه تجاوز معدلات خطاب الكراهية.

على الرغم من أن الردود الاصطناعية قد تبدو قابلة للتصديق، إلا أنها لا تعكس خصائص تفاعلات الجمهور العامة بشكل دقيق. تعد هذه النتائج دعوة لتطوير نماذج قادرة على تحقيق توازن أفضل بين الأصالة والواقعية في تفاعلاتها الاجتماعية.