تمتاز نماذج اللغة الضخمة (Large Language Models) بالقدرة على التفكير القصير الأمد، ولكنها تواجه تحديات كبيرة في فهم الفيديوهات الطويلة. وذلك يعود إلى وجود قيود في نوافذ السياق وآليات الذاكرة الثابتة التي لا تعكس الكفاءة الإدراكية البشرية.

تتباين الطرق الحالية عادة بين أسلوب مركزي على الرؤية، الذي يتسم بالبطء والازدواجية بسبب تراكم البيانات المرئية، أو أسلوب مركزي على النص، الذي يعاني من فقدان التفاصيل والتخيلات نتيجة التسمية العدوانية.

لملء هذه الفجوة، نقترح بنية ذاكرة متعددة الأنماط تُعرف بـ MM-Mem، المستندة إلى نظرية أثر الضبابية (Fuzzy-Trace Theory). تقوم هذه البنية بترتيب الذاكرة بشكل هرمي إلى ثلاثة مستويات:
1. **ذاكرة حسية (Sensory Buffer)**
2. **تسلسل أحداث (Episodic Stream)**
3. **نموذج رمزي (Symbolic Schema)**

يسمح هذا الهيكل بتقطير آثار إدراكية دقيقة (كلمات حرفية) إلى نماذج دلالية عالية المستوى (جوهر).

علاوة على ذلك، ولتنظيم البناء الديناميكي للذاكرة، استخرجنا هدفًا يُعرف باسم **سد الفجوة المعلوماتية الدلالية (Semantic Information Bottleneck)** وقمنا بتقديم SIB-GRPO لتحسين التوازن بين ضغط الذاكرة واحتفاظ المعلومات المهمة.

خلال مرحلة الاستدلال، صممنا استراتيجية لاسترجاع الذاكرة مدفوعة بالاحتمالية من أعلى لأسفل. أظهرت التجارب المكثفة عبر أربعة معايير أن MM-Mem يحقق أداءً رائدًا في المهام غير المتصلة والبث المباشر، مما يدل على تعميم قوي ويؤكد فعالية تنظيم الذاكرة المستوحى من الإدراك.

الكود والتكوينات المرتبطة متاحة للجمهور على [رابط GitHub المخصص](https://github.com/EliSpectre/MM-Mem).

ما رأيكم في هذا التطور في الذكاء الاصطناعي؟ كيف ترون تأثيره على فهم الفيديوهات؟ شاركونا في التعليقات!