أثبتت نماذج اللغات الضخمة (LLMs) فعاليتها في التعلم في السياق (In-Context Learning)، لكنها لا تزال غير مستكشفة بشكل كامل في مجال اتخاذ القرارات المتسلسلة. في دراسة جديدة، تم تحليل قدرات هذه النماذج في بيئات اتخاذ القرارات المتسلسلة، بما في ذلك عمليات القرار ماركوف (Markov Decision Processes - MDPs) وعمليات القرار الجزئية القابلة للملاحظة (Partially Observable MDPs - POMDPs) وPOMDPs الغامضة (Ambiguous POMDPs - APOMDPs).

قام الباحثون بتدريب نماذج اللغات الضخمة المدربة مسبقًا لتتمكن من اتخاذ القرارات من خلال بيانات تم وضعها بشكل يدوياً، مما أتاح النموذج مرونة في تقليد السياسات عبر التعزيز المراقب (Supervised Fine-Tuning - SFT).

على الصعيد النظري، تم التركيز على MDPs الخطية، حيث تم تفسير طبقة الانتباه المدربة بأنها تقدر بشكل ضمني Q-functions المثلى بناءً على البيانات في السياق. وقد أسفرت هذه التفسيرات عن اشتقاق حدود عدم المثالية للسياسة الناتجة، مما يفصل بين خطأ التقدير في السياق والانحBias الناتج عن طول التدريب.

من الناحية التجريبية، أظهرت النماذج المدربة أن فجوات المثالية كانت أقل بكثير مقارنة بالأساليب التي تعتمد فقط على البيانات في السياق أو الأساليب العشوائية، مع تحقيق فوائد كبيرة في البيئات الأطول جزئيًا القابلة للرؤية وغير الواضحة.

تشير هذه النتائج إلى أن التعزيز المراقب يوفر وسيلة فعالة لتعزيز قدرة نماذج اللغات الضخمة المدربة مسبقًا على اتخاذ القرارات المتسلسلة اعتمادًا على البيانات غير المتصلة بالإنترنت، وهو ما يعد ميزة حيوية في مجالات مثل الرعاية الصحية، حيث تتوافر البيانات بكثرة.