شهدت نماذج الذكاء الاصطناعي تطورًا ملحوظًا في مجال المحادثات الطويلة، ولكن حتى الآن، كانت المعايير المتاحة تقتصر على قياس الذاكرة الفعلية لاسترجاع المعلومات، دون القدرة على قياس الذاكرة التفاعلية اللازمة لتركيب الإشارات المتنوعة في تفسيرات عالية المستوى. في محاولة لمعالجة هذه الفجوة، تم تقديم معيار جديد يسمى RefMem-Bench، والذي تم تصميمه خصيصًا لفحص الذاكرة التفاعلية في سياقات الحوار الطويلة.

يضم معيار RefMem-Bench أكثر من 26,000 حالة QA (أسئلة وإجابات) مع ثمانية أبعاد للذاكرة التفاعلية وثلاثة تنسيقات للمهام. هذه القياسات تتطلب من النماذج تجاوز استرجاع المعلومات السطحية لتستنتج المعاني الكامنة من الأدلة المنتشرة عبر تاريخ التفاعل.

ولتعزيز القدرة على استخدام الذاكرة التفاعلية، تم تقديم إطار REMIND (تحفيز الذاكرة التفاعلية). يتعامل هذا الإطار مع الذاكرة التفاعلية على أنها عملية تدريجية لبناء المعاني، حيث يجمع بين استرجاع الأدلة الشرطية على الأسئلة، وتأسيس الوعي بأهمية المعلومات، والإشراف على مستويات التجريد. يستخدم REMIND تقنية الإدراك التدريجي لتمهيد الطريق لتعزيز التفكير العميق في العمليات الاستنتاجية.

أظهرت التجارب أن معيار RefMem-Bench يمثل تحديًا كبيرًا للنماذج الحالية، بينما يحقق REMIND تحسنًا ملحوظًا في دقة الإجابات واسترجاع الذاكرة من خلال تعزيز إدراك الأدلة وتجذير المعلومات.