في عصر يعتبر فيه ذكاء الآلات (AI) جزءاً لا يتجزأ من حياتنا اليومية، يصبح الاحتفاظ بالمعلومات عبر جلسات متعددة أمراً بالغ الأهمية. هنا يأتي دور EngramaBench، وهو معيار مُحدث يهدف إلى تقييم الذاكرة الحواريّة طويلة الأمد من خلال بناء نظام مرتكز على خمسة شخصيات و100 محادثة متعددة الجلسات. تتركز التقييمات حول مجموعة من الأسئلة التي تشمل استرجاع الحقائق، والتكامل بين المساحات المختلفة، والتفكير الزمني، ورفض الضغوط التنافسية، وصياغة الأفكار الجديدة.
قام الباحثون بمقارنة الأداء بين Engrama، وهو نظام ذاكرة مستند إلى الرسم البياني، وGPT-4o الذي يعتمد على التلقيم الكامل للسياق، ونظام Mem0 الذي يمثل حلاً مفتوح المصدر لاسترجاع البيانات. جميع هذه التقنيات تستخدم نموذج الإجابة نفسه (GPT-4o)، مما يسمح بعزل تأثير بنية الذاكرة.
نتائج المقارنات كانت مثيرة للاهتمام، حيث سجل GPT-4o أعلى نتيجة (0.6186)، في حين حصل Engrama على نتيجة عالمية قدرها 0.5367. ولكن، يتميز Engrama بكونه النظام الوحيد الذي سُجل لديه أداء أفضل من التلقيم الكامل للسياق في مجال التفكير عبر المساحات (0.6532 مقابل 0.6291). أما Mem0، فرغم كونه الخيار الأرخص، إلا أنه كان أقل كفاءة (0.4809).
الأبحاث تشير أيضاً إلى أن المكونات المسؤولة عن ميزة Engrama في التفكير عبر المساحات تتعارض مع الدرجة العامة. هذا يكشف التوترات على مستوى النظام بين التخصص في الذاكرة المنظمة والoptimisation الشاملة. هل نحن في بداية عهد جديد من التواصل البشري الآلي؟ ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
EngramaBench: كيف تقيم الذاكرة الحواريّة طويلة الأمد باستخدام استرجاع البيانات المنظم؟
يقدم EngramaBench معياراً تقييمياً للذاكرة الحواريّة طويلة الأمد، مع التركيز على خمسة شخصيات و100 محادثة متعددة الجلسات، مما يعكس مدى تطور الذكاء الاصطناعي في الاحتفاظ بالمعلومات. تكشف النتائج عن تباينات مثيرة في أداء أنظمة الذاكرة المختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
