في عالم الذكاء الاصطناعي (AI)، تزداد الحاجة إلى أنظمة قادرة على دمج مهارتين معقدتين: التنقل في تاريخ المحادثات المتعددة والقدرة على الفهم العميق لمحتوى المستندات الطويلة. ومع ذلك، كانت هناك فجوة في المقياس الذي يقيم كلا هاتين القدرات في وقت واحد. وهنا يأتي دور MemoryDocDataSet.

يساعد هذا المقياس الجديد في تقييم وتطوير الأنظمة الذكية من خلال توفير مجموعة متكاملة تتكون من 50 عالماً صغيراً و1000 زوج من الأسئلة والأجوبة. كل حالة تضم 3-5 شخصيات، ورسم بياني للأحداث الزمنية يمتد عبر أشهر من النشاط، بالإضافة إلى 3-5 مستندات طويلة تحتوي على ما بين 20,000 إلى 50,000 رمزاً، تم جمعها من مشروع وصول الأحكام.

ما يميز MemoryDocDataSet هو ما يعرف بعلامة المصدر الهجين: على سبيل المثال، تتطلب الأسئلة ذات الصلة من النظام أن يتنقل أولاً عبر تاريخ المحادثة لتحديد المستند المناسب، ثم استخراج الإجابة من هذا المستند. وتشكل هذه الأسئلة الهجينة 75.1% من مجموعة البيانات.

تم تقييم جودة مجموعة البيانات من خلال تحليل حساسية الطلب باستخدام نماذج اللغات الضخمة (LLMs) كحكم، مما yielded كابا كوهين قدره 0.634 كوسيط عبر جميع العوالم الصغيرة.

كما يتم تقييم ستة تهيئات أساسية تشمل السياقات المختصرة وLLMs ذات السياق الطويل، بالإضافة إلى أنظمة استرجاع معززة بالتوليد (RAG) وأنظمة الذاكرة. بلغت أفضل مقياس (RAG-Both) 0.358 في معدل F1 العام و0.342 في الأسئلة الهجينة.

بالإضافة إلى ذلك، يظهر تحلل الاسترجاع القائم فقط على المستندات (RAG-Doc) تراجعاً إلى 0.267 في الأسئلة الهجينة، على الرغم من تحقيقه 0.453 في الأسئلة المتعلقة بالمستندات فقط. وهذا يوضح الفجوة الواضحة في الاسترجاع المشترك، مما يحفز المعماريات التي توحد الذاكرة المحادثة مع التنقل عبر المستندات الطويلة.

باختصار، تقدم MemoryDocDataSet مجموعة شاملة جديدة تدفع حدود الابتكار في مجال الذكاء الاصطناعي. هل أنتم متحمسون لرؤية كيف ستسهم هذه التقنية في تحسين تكنولوجيا المحادثة والفهم العميق للمحتوى؟ شاركونا آراءكم في التعليقات!