تُعتبر الوكالات الذكية المعززة بالذاكرة (Memory-augmented LLM agents) أداة قوية في معالجة المهام الطويلة والمعقدة، حيث تعتمد على تلخيص المسارات التفاعلية بشكل متكرر إلى ذاكرة مدمجة. ولكن للأسف، فإن الأساليب الحالية غالباً ما تعتمد على التعلم المعزز القائم على النتائج، مما يؤدي إلى تجاهل أين تتدهور جودة الذاكرة بشكل تدريجي.
مع تقدم التفاعلات، يزداد الغموض في الملخصات التكرارية، مما يتسبب في فقدان المعلومات المهمة المتعلقة بالمهام، ويزيد من الضوضاء الدلالية. هذه المشكلة تؤدي إلى تباين الاعتقاد، مما يعيق قدرة الوكالات على تقدير الحالة الكامنة للمهام، مما يؤدي في النهاية إلى تفكيك الروابط المنطقية على المدى الطويل.
لذا، تم طرح تحسين سياسات الذاكرة المعرفية (Metacognitive Memory Policy Optimization - MMPO) كحل مبتكر لهذه التحديات. هذا النهج لا يركز فقط على النجاح على مستوى المسارات، بل يسعى أيضاً لتحسين وضوح الاعتقاد الناتج عن الملخصات الوسيطة.
باستخدام مفهوم جديد يسمى Entropy الاعتقادي، نستطيع قياس مدى عدم التأكد الذي يواجهه النموذج بخصوص الحالة الكامنة للمهام تبعاً لذاكرته الحالية. MMPO يُقدم إشرافاً دقيقاً ومحدداً للذاكرة من خلال فرض غرامات على الملخصات التي تسبب زيادة في عدم اليقين.
أثبتت التجارب أن MMPO يتجاوز بانتظام الأساليب الحالية في مجموعة متنوعة من المهام الطويلة، محققًا نسبة أداء مرتفعة تصل إلى 97.1% حتى مع توسيع السياق إلى 1.75 مليون رمز.
تحسين سياسات الذاكرة المعرفية لتعزيز أداء الوكلاء الذكيين في المهام الطويلة
تقدم دراسة جديدة تحسينات ثورية في كيفية استخدام الوكلاء الذكيين لذاكرتهم لإنجاز المهام المستمرة. من خلال نهج مبتكر يعتمد على الذاكرة المعرفية، يتحقق تحسين كبير في الأداء والدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
