تتزايد استخدامات [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) ([LLMs](/tag/llms)) كمستهلكين رقميين لمحاكاة [الرأي](/tag/الرأي) العام واختبار [قرارات](/tag/قرارات) التسويق، لكن هل يمكنها فعلاً [فهم](/tag/فهم) ردود الفعل الإنسانية كما يفعل المستهلكون الحقيقيون؟ هذا هو السؤال الذي تمت الإجابة عليه في [دراسة](/tag/دراسة) حديثة استُخدمت فيها [أداة](/tag/أداة) جديدة يُطلق عليها ConsumerSimBench.
تألف معيار ConsumerSimBench من 1,553 موضوعًا من [وسائل [التواصل](/tag/التواصل) الاجتماعي](/tag/وسائل-[التواصل](/tag/التواصل)-الاجتماعي) الصينية و23,122 معيارًا دقيقًا تم تدقيقه [عبر](/tag/عبر) قواعد محددة، تمتد [عبر](/tag/عبر) أربع فئات من ردود الفعل. بدلاً من الاعتماد على [تقييم](/tag/تقييم) شامل للطريقة التي يتم بها إنتاج المحتوى، يركز هذا المعيار على [تحليل](/tag/تحليل) القرارات المحددة (نعم أو لا) حول ردود فعل معينة. هذا النهج رفع نسبة [توافق](/tag/توافق) القضاة من 65.8% إلى 92.1%، مع اتفاق بنسبة 98.4% بين [قرارات](/tag/قرارات) القضاة البؤريين والتصنيفات التي يفضلها غالبية المشاركين من البشر.
وكشفت التقارير عن مدى قصور [النماذج](/tag/النماذج) الرائدة مثل [Gemini](/tag/gemini)-3.1-Pro التي تغطي 47.8% فقط من [معايير](/tag/معايير) ردود الفعل الحقيقية، بينما تراجعت [نماذج](/tag/نماذج) أخرى مثل [GPT-5.2](/tag/gpt-52) وClaude-4.6 إلى النسبة المنخفضة مقارنةً بأداء [المؤشرات](/tag/المؤشرات) [التقنية](/tag/التقنية). والأكثر إثارة هو أن الفجوات تظهر بوضوح بين [الأداء](/tag/الأداء) الفني الكبير والفهم القائم على المجتمع للاستهلاك.
إن استخدام موجهات [استدلال](/tag/استدلال) منظمة مباشرة يقلل من التغطية، في حين أن نظام [التوليد](/tag/التوليد) والتفكير متعدد [الوكلاء](/tag/الوكلاء) يحسن [أداء](/tag/أداء) MiMo-V2.5-Pro من 32.9% إلى 37.6% فقط في مجموعة فرعية.
تعمل [دراسة](/tag/دراسة) ConsumerSimBench على إعادة صياغة [محاكاة](/tag/محاكاة) الاستهلاك كمشكلة تنبؤية فيما يتعلق بالتفاعلات العامة الحقيقية، مما يظهر أن [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) الجديدة لا تزال بعيدة عن [التنبؤ](/tag/التنبؤ) بدقة بما يهم المستهلكين في [النقاشات](/tag/النقاشات) ذات [السياق](/tag/السياق) العالي في السوق الصينية.
هل يمكن للنماذج اللغوية الكبيرة (LLMs) التفكير مثل المستهلكين؟ دراسة جديدة تكشف الفجوة في الفهم الاستهلاكي!
تستكشف دراسة جديدة مدى قدرة النماذج اللغوية الكبيرة (LLMs) على محاكاة ردود فعل المستهلكين الفعلية، مقدمةً معيارًا جديدًا يُعرف بـConsumerSimBench. تكشف النتائج عن فجوة كبيرة بين الأداء الفني والنوايا الاستهلاكية الحقيقية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
