في عصر الذكاء الاصطناعي المتقدم، تتطلع المساعدات البصرية من الجيل الجديد، مثل نظارات الذكاء الاصطناعي والأنظمة التفاعلية المدمجة، إلى التعامل مع تجارب بصرية مستمرة تدوم ليوم كامل أو أكثر. لكن التحدي الكبير يكمن في كيفية التعامل مع كم هائل من المعلومات المتناثرة عبر ساعات أو أيام، مما يجعل الذاكرة جانباً أساسياً في هذا التحليل.

للتغلب على هذه العقبة، تم تقديم معيار "EgoMemReason"، الذي يقيم فهم الفيديوهات الذاتية على مدى أسبوع من خلال التفكير المعتمد على الذاكرة. يركز معيار EgoMemReason على ثلاثة أنواع رئيسية من الذاكرة:

1. **ذاكرة الكيانات (Entity Memory)**: تتبع كيفية تطور حالات الأجسام وتغيرها عبر الأيام.
2. **ذاكرة الأحداث (Event Memory)**: تتذكر وتنسق الأنشطة التي تفصل بينها ساعات أو أيام.
3. **ذاكرة السلوك (Behavior Memory)**: تستنبط الأنماط المتكررة من ملاحظات متفرقة تمتد خلال أسبوع كامل.

يحتوي معيار EgoMemReason على 500 سؤال تغطي ثلاثة أنواع من الذاكرة وستة تحديات أساسية، مع متوسط قدره 5.1 مقطع فيديو كمصدر أدلة لكل سؤال و25.9 ساعة من إعادة تتبع الذاكرة. تم تقييم هذا المعيار على 17 طريقة مختلفة، مما أظهر أن أفضل نموذج لم يستطع تحقيق أكثر من 39.6% من الدقة الإجمالية.

تكشف التحليلات الإضافية أن أنواع الذاكرة الثلاثة تفشل لأسباب مميزة وأن الأداء يتدهور عندما تتجاوز الأدلة الآفاق الزمنية، مما يبرز أن الذاكرة طويلة المدى لا تزال بحاجة إلى التطوير.

نعتقد أن EgoMemReason يشكل أساساً قوياً لتقييم وتطوير أنظمة متعددة الوسائط التي تدرك الذاكرة والسياق على فترات زمنية طويلة. ما رأيكم في هذا الإنجاز العلمي؟ شاركونا في التعليقات.