لقد حققت نماذج اللغة الكبيرة (Large Language Models - LLMs) تقدمًا ملحوظًا في معالجة المهام القصيرة والمركَّزة، لكن يبقى السؤال الأهم: كيف ستؤدي هذه النماذج في البيئات الديناميكية التي تتطلب اتخاذ قرارات مستدامة على المدى الطويل؟ هنا يأتي دور RetailBench، وهو معيار جديد يهدف إلى تقييم هذه النماذج في مجال إدارة السوبرماركت.

RetailBench يحاكي إدارة البيع بالتجزئة كنموذج قرار جزئي الملاحظة، حيث يجسد عملية اتخاذ القرار في سياقات حقيقية ومعقدة. يمكن للمحققين من خلال هذا النظام إجراء محاكاة تمتد إلى ألف يوم، مما يقدم فرصة رائعة لتحليل كيفية تعامل النماذج مع متغيرات مثل الأسعار واختيار الموردين وتغذية المخزون.

ركزت الدراسة على تقييم سبعة نماذج LLM مع استخدام أطر عمل تطبيقية ملائمة على مدى 180 يومًا، وتعقب النتائج على مستوى ثراء المحاكاة النهائية والعائدات. كانت النتائج مثيرة للاهتمام، حيث أظهرت أن مجموعة صغيرة فقط من النماذج تمكنت من النجاة خلال المدة المحددة، حتى أن الأقوى منها كان لا يزال بعيدًا عن الأداء السابق لسياسة ‘الأوراكل’ المتفوقة.

أثبتت التحليلات السلوكية أن الفجوات في الأداء تعزى إلى عدم كفاية جمع الأدلة، ورؤية ضحلة في اتخاذ القرارات، وغياب سياسة طويلة الأمد متسقة. بالتالي، يوفر RetailBench منصة تحكم لتطوير فهم أعمق حول الكفاءة الاقتصادية وضمان الاعتماد الذاتي في اتخاذ قرارات مستقلة على المدى الطويل.