في عالم الذكاء الاصطناعي المتطور بسرعة، تلعب الذاكرة الزمنية الطويلة (Long-Horizon Memory) دورًا حاسمًا في تحسين أداء النماذج. ومع ذلك، تعاني المعايير الحالية من قصور في تقييم هذه الذاكرة لأداء التطبيقات الذكية. ولتجاوز هذا التحدي، أطلق الباحثون معيارًا جديدًا يُعرف باسم AMA-Bench (Agent Memory with Any Length) والذي يهدف إلى تقييم الذاكرة الزمنية الطويلة لنماذج اللغات الكبيرة (LLMs) في تطبيقات حقيقية.
يقوم AMA-Bench على عنصرين رئيسيين، الأول هو مجموعة من المسارات التجريبية الحقيقية تتضمن تفاعلات وكيل في تطبيقات متعددة، والتي تم إجراء اختبارات أسئلة وأجوبة عليها من قبل خبراء. بينما العنصر الثاني يتضمن مسارات تجريبية اصطناعية ذات أفق زمني غير محدد، مرتبطة بنموذج أسئلة وأجوبة قائم على قواعد واضحة.
تشير الدراسات الشاملة إلى أن الأنظمة الحالية للذاكرة تواجه تحديات كبيرة عند استخدامها مع AMA-Bench، حيث تعاني بشكل أساسي من نقص في المعلومات الموضوعية وعدم وجود العلاقات السببية، وهي من القيود التي تؤثر على الأداء. ولتجاوز هذه القيود، تم تقديم نظام ذاكرة جديد يُعرف باسم AMA-Agent، الذي يدمج رسمًا بيانيًا عن العلاقات السببية واسترجاع مدعوم بالأدوات.
تظهر النتائج أن AMA-Agent يحقق معدل دقة متوسط قدره 57.22% على معيار AMA-Bench، مما يتجاوز أقوى المعايير السابقة بفارق 11.16%. يبدو أن هذا التطور يحمل بشرى كبيرة لمستقبل التطبيقات الذكية ويعزز من أهمية الذاكرة الزمنية الطويلة في تعزيز الأداء.
في العصر الرقمي الحالي، هل تعتقد أن هذه التطورات ستحدث فرقًا حقيقيًا في أداء التطبيقات الذكية؟ شاركونا آراءكم في التعليقات!
AMA-Bench: ثورة في تقييم الذاكرة الزمنية الطويلة لتطبيقات الذكاء الاصطناعي!
أطلق الباحثون معيار AMA-Bench لتقييم الذاكرة الزمنية الطويلة لنماذج اللغات الكبيرة (LLMs)، بهدف تحسين أدائها في التطبيقات الذكية. هذا المعيار الجديد سيساعد في سد الفجوة بين التطبيقات والمعايير الحالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
