تتزايد استخدامات النماذج اللغوية الكبيرة (LLMs) كمستهلكين رقميين لمحاكاة الرأي العام واختبار قرارات التسويق، لكن هل يمكنها فعلاً فهم ردود الفعل الإنسانية كما يفعل المستهلكون الحقيقيون؟ هذا هو السؤال الذي تمت الإجابة عليه في دراسة حديثة استُخدمت فيها أداة جديدة يُطلق عليها ConsumerSimBench.

تألف معيار ConsumerSimBench من 1,553 موضوعًا من وسائل التواصل الاجتماعي الصينية و23,122 معيارًا دقيقًا تم تدقيقه عبر قواعد محددة، تمتد عبر أربع فئات من ردود الفعل. بدلاً من الاعتماد على تقييم شامل للطريقة التي يتم بها إنتاج المحتوى، يركز هذا المعيار على تحليل القرارات المحددة (نعم أو لا) حول ردود فعل معينة. هذا النهج رفع نسبة توافق القضاة من 65.8% إلى 92.1%، مع اتفاق بنسبة 98.4% بين قرارات القضاة البؤريين والتصنيفات التي يفضلها غالبية المشاركين من البشر.

وكشفت التقارير عن مدى قصور النماذج الرائدة مثل Gemini-3.1-Pro التي تغطي 47.8% فقط من معايير ردود الفعل الحقيقية، بينما تراجعت نماذج أخرى مثل GPT-5.2 وClaude-4.6 إلى النسبة المنخفضة مقارنةً بأداء المؤشرات التقنية. والأكثر إثارة هو أن الفجوات تظهر بوضوح بين الأداء الفني الكبير والفهم القائم على المجتمع للاستهلاك.

إن استخدام موجهات استدلال منظمة مباشرة يقلل من التغطية، في حين أن نظام التوليد والتفكير متعدد الوكلاء يحسن أداء MiMo-V2.5-Pro من 32.9% إلى 37.6% فقط في مجموعة فرعية.

تعمل دراسة ConsumerSimBench على إعادة صياغة محاكاة الاستهلاك كمشكلة تنبؤية فيما يتعلق بالتفاعلات العامة الحقيقية، مما يظهر أن النماذج اللغوية الكبيرة الجديدة لا تزال بعيدة عن التنبؤ بدقة بما يهم المستهلكين في النقاشات ذات السياق العالي في السوق الصينية.