في عالم الذكاء الاصطناعي، تلعب الذاكرة دورًا محوريًا في أداء الوكلاء الذكيين، حيث يعتمد نجاحهم على قدرتهم على استرجاع المعلومات الدقيقة في الوقت المناسب. لكن ماذا يحدث عندما تتزايد الأدلة غير ذات الصلة، ويبدأ الوكيل في فقدان فعاليته؟
لتناول هذه القضية، قدم الباحثون بروتوكول تقييم مُشروط بالمعايير القياسية يسمح لهم برصد كيف تؤثر الجلسات غير المتعلقة على أداء الوكيل. يتمثل هذا البروتوكول في تقييم دقة الذاكرة تحت ظروف نمو مستمر للأدلة، حيث يتم الحفاظ على أدلة المهمة ثابتة بينما تُضاف الجلسات غير المرتبطة. يقوم هذا الأسلوب بتوثيق مسارات الذاكرة ويقدم أربعة معايير تشخيصية رئيسية: موثوقية التوافق مع الميزانية، عبء استدعاء الذاكرة في الحالات الحرجة، توضيح حالات الفشل، وحدود الاستخدام الفعلي حيث تنخفض الموثوقية عن الهدف المعتبر.
عند تطبيق هذا المنهج على مجموعات بيانات LongMemEval وLoCoMo، أظهرت النتائج أن فقدان الموثوقية ليس مجرد ظاهرة فردية. على سبيل المثال، في تجربة LongMemEval، احتفظ وكيل HippoRAG بمطابقة مع ميزانية استدعاء ثنائية، لكنه فقد 16 إلى 20 نقطة مئوية من الموثوقية مع زيادة عدد الجلسات غير المرتبطة. وعلى الجانب الآخر، كانت حالات فشل LiCoMemory متعلقة بنوع الوكيل، حيث تخطى Qwen3-8B الميزانية، بينما حافظ Qwen3-32B وQwen3-235B على موثوقيتهما ضمن النطاق المختبر.
توفر هذه النتائج إطارًا يساعد في تقديم ادعاءات حول الذاكرة القابلة للتوسع، مشروطة بنوع الوكيل، واجهة الاتصال، نطاق الحجم، وميزانية التفاعل. إذن، كيف ترون تأثير تلك المسارات على تطوير الذاكرة في الوكلاء الذكيين؟ شاركونا في التعليقات!
عندما تتوقف الأدلة المخزنة عن كونها قابلة للاستخدام: تقييم ذاكرة الوكيل في ظل نمو الأدلة
يكشف تقييم ذاكرة الوكيل عن كيفية تدهور دقة الأدلة مع تزايد جلسات البيانات غير المتعلقة. الأساليب الجديدة تفتح أفقًا لفهم حدود الاستخدام الفعلي للذاكرة وتعزيز استراتيجيات تحسين الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
