تتزايد استخدامات [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) ([LLMs](/tag/llms)) كمستهلكين رقميين لمحاكاة [الرأي](/tag/الرأي) العام واختبار [قرارات](/tag/قرارات) التسويق، لكن هل يمكنها فعلاً [فهم](/tag/فهم) ردود الفعل الإنسانية كما يفعل المستهلكون الحقيقيون؟ هذا هو السؤال الذي تمت الإجابة عليه في [دراسة](/tag/دراسة) حديثة استُخدمت فيها [أداة](/tag/أداة) جديدة يُطلق عليها ConsumerSimBench.

تألف معيار ConsumerSimBench من 1,553 موضوعًا من [وسائل [التواصل](/tag/التواصل) الاجتماعي](/tag/وسائل-[التواصل](/tag/التواصل)-الاجتماعي) الصينية و23,122 معيارًا دقيقًا تم تدقيقه [عبر](/tag/عبر) قواعد محددة، تمتد [عبر](/tag/عبر) أربع فئات من ردود الفعل. بدلاً من الاعتماد على [تقييم](/tag/تقييم) شامل للطريقة التي يتم بها إنتاج المحتوى، يركز هذا المعيار على [تحليل](/tag/تحليل) القرارات المحددة (نعم أو لا) حول ردود فعل معينة. هذا النهج رفع نسبة [توافق](/tag/توافق) القضاة من 65.8% إلى 92.1%، مع اتفاق بنسبة 98.4% بين [قرارات](/tag/قرارات) القضاة البؤريين والتصنيفات التي يفضلها غالبية المشاركين من البشر.

وكشفت التقارير عن مدى قصور [النماذج](/tag/النماذج) الرائدة مثل [Gemini](/tag/gemini)-3.1-Pro التي تغطي 47.8% فقط من [معايير](/tag/معايير) ردود الفعل الحقيقية، بينما تراجعت [نماذج](/tag/نماذج) أخرى مثل [GPT-5.2](/tag/gpt-52) وClaude-4.6 إلى النسبة المنخفضة مقارنةً بأداء [المؤشرات](/tag/المؤشرات) [التقنية](/tag/التقنية). والأكثر إثارة هو أن الفجوات تظهر بوضوح بين [الأداء](/tag/الأداء) الفني الكبير والفهم القائم على المجتمع للاستهلاك.

إن استخدام موجهات [استدلال](/tag/استدلال) منظمة مباشرة يقلل من التغطية، في حين أن نظام [التوليد](/tag/التوليد) والتفكير متعدد [الوكلاء](/tag/الوكلاء) يحسن [أداء](/tag/أداء) MiMo-V2.5-Pro من 32.9% إلى 37.6% فقط في مجموعة فرعية.

تعمل [دراسة](/tag/دراسة) ConsumerSimBench على إعادة صياغة [محاكاة](/tag/محاكاة) الاستهلاك كمشكلة تنبؤية فيما يتعلق بالتفاعلات العامة الحقيقية، مما يظهر أن [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) الجديدة لا تزال بعيدة عن [التنبؤ](/tag/التنبؤ) بدقة بما يهم المستهلكين في [النقاشات](/tag/النقاشات) ذات [السياق](/tag/السياق) العالي في السوق الصينية.