في عالم الذكاء الاصطناعي، تُظهر [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models)) قدرة مذهلة على [التعلم](/tag/التعلم) من أمثلة قليلة (few-shot learning) عند توفير العروض المناسبة. ولكن، هل [تعلم](/tag/تعلم) أن هذه [الميزة](/tag/الميزة) يمكن أن تتحول إلى عائق في سيناريوهات [الوكالة](/tag/الوكالة) متعددة الأدوار؟ تم تحديد ظاهرة تُعرف باسم الجمود المحادثاتي (conversational inertia)، حيث تميل [النماذج](/tag/النماذج) إلى تقليد ردودها السابقة بشكل غير صحيح، مما يقلل من [استكشاف](/tag/استكشاف) الخيارات الجديدة.

أظهرت الدراسات من خلال [تحليل](/tag/تحليل) [الانتباه](/tag/الانتباه) أن [النماذج](/tag/النماذج) تُظهر انتباهًا قويًا استنادًا إلى ردودها السابقة، وهو ما يرتبط بتحيز التقليد. هذا [التحيز](/tag/التحيز) يحد من إمكانية الاستكشاف، مما يظهر تعارضًا عندما نرغب في [تحويل](/tag/تحويل) [النماذج](/tag/النماذج) الليميا ([LLMs](/tag/llms)) إلى [وكلاء ذكيين](/tag/[وكلاء](/tag/وكلاء)-ذكيين). فعلى الرغم من أن [السياق](/tag/السياق) الأطول يُغني من [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) البيئية، إلا أنه يعزز أيضًا الجمود المحادثاتي الذي يُضعف عملية [الاستكشاف](/tag/الاستكشاف).

[الملاحظة](/tag/الملاحظة) الرئيسية هنا هي أن الأفعال الناتجة عن [سياقات](/tag/سياقات) أطول تُظهر جمودًا أكبر مقارنة بتلك الناتجة عن [سياقات](/tag/سياقات) أقصر. من هنا، يُمكننا [بناء](/tag/بناء) أزواج تفضيل دون [المكافآت](/tag/المكافآت) البيئية. استنادًا إلى هذه الرؤية، تم [اقتراح](/tag/اقتراح) [تعلم](/tag/تعلم) تفضيل [السياق](/tag/السياق) (Context Preference Learning) لضبط [تفضيلات](/tag/تفضيلات) النموذج لصالح الردود ذات الجمود المنخفض.

بالإضافة إلى ذلك، تم تقديم [استراتيجيات](/tag/استراتيجيات) [إدارة](/tag/إدارة) [السياق](/tag/السياق) خلال زمن [الاستدلال](/tag/الاستدلال) لتحقيق توازن بين [الاستكشاف](/tag/الاستكشاف) واستغلال [المعلومات](/tag/المعلومات). وقد أظهرت النتائج التجريبية [عبر](/tag/عبر) ثمانية بيئات وكيلة وسيناريو بحثي عميق أن هذا الإطار يقلل من الجمود المحادثاتي ويحقق [تحسينات](/tag/تحسينات) في [الأداء](/tag/الأداء).