يعتمد [أداء](/tag/أداء) [الوكلاء](/tag/الوكلاء) في العالم الحقيقي على قدرتهم على معالجة [معلومات](/tag/معلومات) تمتد على فترة زمنية طويلة ومتطورة، حيث يتم [تحديث](/tag/تحديث) [البيانات](/tag/البيانات) باستمرار وقد تتداخل [الذاكرة](/tag/الذاكرة) بينها. تتطلب هذه [العملية](/tag/العملية) [استرجاع](/tag/استرجاع) دقيق وقدرة على [التفكير المنطقي](/tag/[التفكير](/tag/التفكير)-المنطقي) المجمع [عبر](/tag/عبر) [معلومات](/tag/معلومات) متعددة. إلا أن الاختبارات الحالية تركز على الاسترجاع الثابت المستقل، مما يفشل في التقاط [التفاعلات](/tag/التفاعلات) الديناميكية بين الذكريات المتطورة.

في [البحث](/tag/البحث) الجديد المعنون بـ [LongMINT](/tag/longmint) (Long-Horizon Memory under INTerference)، تم تقديم معيار يسلط الضوء على كيفية [أداء](/tag/أداء) [الوكلاء](/tag/الوكلاء) المعززين بالذاكرة في ظروف واقعية تحتوي على تداخلات كثيفة وممتدة [عبر](/tag/عبر) مجالات متنوعة وأنواع من الأسئلة. يتضمن [LongMINT](/tag/longmint):

1. [سياقات](/tag/سياقات) طويلة ومترابطة للغاية مع [معلومات](/tag/معلومات) تُحدث بشكل متكرر مما يسبب تداخلًا كبيرًا.
2. مجالات متنوعة تشمل [تتبع](/tag/تتبع) الحالة، والحوار متعدد الجولات، وتعديلات ويكيبيديا، والتغييرات في GitHub، مما يساعد في [تقييم](/tag/تقييم) [التعميم](/tag/التعميم) [عبر](/tag/عبر) المجالات.
3. أنواع متنوعة من الأسئلة التي تقيم [متانة](/tag/متانة) الأنظمة ضد التداخل، بما في ذلك مهام [استرجاع](/tag/استرجاع) الهدف الواحد التي تتطلب [استرجاع](/tag/استرجاع) هدف محدد من [سياقات](/tag/سياقات) طويلة، ومهام تجميع [الأهداف المتعددة](/tag/الأهداف-المتعددة) التي تتطلب [التفكير](/tag/التفكير) في قطع [المعلومات](/tag/المعلومات) ذات الصلة.

تتضمن مجموعة [LongMINT](/tag/longmint) أكثر من 15.6 ألف زوج من الأسئلة والإجابات [عبر](/tag/عبر) [سياقات](/tag/سياقات) طويلة بمتوسط يبلغ 138.8 ألف رمز ويمتد إلى 1.8 مليون رمز لكل حالة. تم [تقييم](/tag/تقييم) 7 [أنظمة](/tag/أنظمة) تمثيلية، بما في ذلك [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) الطويلة التقليدية (vanilla long-context [LLMs](/tag/llms)) وRAG، وأطر [الوكلاء](/tag/الوكلاء) المعززين بالذاكرة. ومن الملاحظ أن [الأداء](/tag/الأداء) كان منخفضًا بشكل مستمر (بمعدل [دقة](/tag/دقة) 27.9%)، خصوصًا في الأسئلة التي تتطلب تفكيرًا مجمعًا حول عدة أدلة. تشير التحليلات إلى أن [الأداء](/tag/الأداء) يقتصر أساسًا على [استرجاع](/tag/استرجاع) [المعلومات](/tag/المعلومات) وبناء [الذاكرة](/tag/الذاكرة).

علاوة على ذلك، تكافح الأنظمة الحالية لاسترجاع والتفكير في الحقائق السابقة التي تم تعديلها أو تأثرت بالسياقات اللاحقة، حيث يتدهور [الأداء](/tag/الأداء) مع زيادة [عدد](/tag/عدد) [التحديثات](/tag/التحديثات) المع intervening. يمثل [LongMINT](/tag/longmint) دعوة لتعزيز فعالية [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في معالجة التحديات الديناميكية المعقدة في البيانات، مما يبرز الحاجة إلى التحسينات المستقبلية.