يعتمد [أداء](/tag/أداء) [الوكلاء](/tag/الوكلاء) في العالم الحقيقي على قدرتهم على معالجة [معلومات](/tag/معلومات) تمتد على فترة زمنية طويلة ومتطورة، حيث يتم [تحديث](/tag/تحديث) [البيانات](/tag/البيانات) باستمرار وقد تتداخل [الذاكرة](/tag/الذاكرة) بينها. تتطلب هذه [العملية](/tag/العملية) [استرجاع](/tag/استرجاع) دقيق وقدرة على [التفكير المنطقي](/tag/[التفكير](/tag/التفكير)-المنطقي) المجمع [عبر](/tag/عبر) [معلومات](/tag/معلومات) متعددة. إلا أن الاختبارات الحالية تركز على الاسترجاع الثابت المستقل، مما يفشل في التقاط [التفاعلات](/tag/التفاعلات) الديناميكية بين الذكريات المتطورة.
في [البحث](/tag/البحث) الجديد المعنون بـ [LongMINT](/tag/longmint) (Long-Horizon Memory under INTerference)، تم تقديم معيار يسلط الضوء على كيفية [أداء](/tag/أداء) [الوكلاء](/tag/الوكلاء) المعززين بالذاكرة في ظروف واقعية تحتوي على تداخلات كثيفة وممتدة [عبر](/tag/عبر) مجالات متنوعة وأنواع من الأسئلة. يتضمن [LongMINT](/tag/longmint):
1. [سياقات](/tag/سياقات) طويلة ومترابطة للغاية مع [معلومات](/tag/معلومات) تُحدث بشكل متكرر مما يسبب تداخلًا كبيرًا.
2. مجالات متنوعة تشمل [تتبع](/tag/تتبع) الحالة، والحوار متعدد الجولات، وتعديلات ويكيبيديا، والتغييرات في GitHub، مما يساعد في [تقييم](/tag/تقييم) [التعميم](/tag/التعميم) [عبر](/tag/عبر) المجالات.
3. أنواع متنوعة من الأسئلة التي تقيم [متانة](/tag/متانة) الأنظمة ضد التداخل، بما في ذلك مهام [استرجاع](/tag/استرجاع) الهدف الواحد التي تتطلب [استرجاع](/tag/استرجاع) هدف محدد من [سياقات](/tag/سياقات) طويلة، ومهام تجميع [الأهداف المتعددة](/tag/الأهداف-المتعددة) التي تتطلب [التفكير](/tag/التفكير) في قطع [المعلومات](/tag/المعلومات) ذات الصلة.
تتضمن مجموعة [LongMINT](/tag/longmint) أكثر من 15.6 ألف زوج من الأسئلة والإجابات [عبر](/tag/عبر) [سياقات](/tag/سياقات) طويلة بمتوسط يبلغ 138.8 ألف رمز ويمتد إلى 1.8 مليون رمز لكل حالة. تم [تقييم](/tag/تقييم) 7 [أنظمة](/tag/أنظمة) تمثيلية، بما في ذلك [نماذج اللغات](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)) الطويلة التقليدية (vanilla long-context [LLMs](/tag/llms)) وRAG، وأطر [الوكلاء](/tag/الوكلاء) المعززين بالذاكرة. ومن الملاحظ أن [الأداء](/tag/الأداء) كان منخفضًا بشكل مستمر (بمعدل [دقة](/tag/دقة) 27.9%)، خصوصًا في الأسئلة التي تتطلب تفكيرًا مجمعًا حول عدة أدلة. تشير التحليلات إلى أن [الأداء](/tag/الأداء) يقتصر أساسًا على [استرجاع](/tag/استرجاع) [المعلومات](/tag/المعلومات) وبناء [الذاكرة](/tag/الذاكرة).
علاوة على ذلك، تكافح الأنظمة الحالية لاسترجاع والتفكير في الحقائق السابقة التي تم تعديلها أو تأثرت بالسياقات اللاحقة، حيث يتدهور [الأداء](/tag/الأداء) مع زيادة [عدد](/tag/عدد) [التحديثات](/tag/التحديثات) المع intervening. يمثل [LongMINT](/tag/longmint) دعوة لتعزيز فعالية [أنظمة](/tag/أنظمة) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) في معالجة التحديات الديناميكية المعقدة في البيانات، مما يبرز الحاجة إلى التحسينات المستقبلية.
LongMINT: تقييم الذاكرة تحت تأثير الإزعاج المتعدد في أنظمة الوكلاء طويلة الأمد
في دراسة جديدة، تم تقديم إطار LongMINT الذي يعالج تحديات الذاكرة في ظروف تفاعلية وصعبة. يبين البحث ضعف الأنظمة الحالية في استرجاع المعلومات في سياقات معقدة ومتغيرة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
