في عالم يتزايد فيه الاعتماد على المحتوى المرئي، يصبح [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات) الطويلة أمراً بالغ الأهمية. لكن الأمر لا يتطلب فقط معالجة [سياقات](/tag/سياقات) واسعة، بل يحتاج أيضاً إلى آلية [ذاكرة](/tag/ذاكرة) تتخذ [قرارات](/tag/قرارات) [استراتيجية](/tag/استراتيجية) حول [الأدلة](/tag/الأدلة) المرئية التي يجب الاحتفاظ بها، وضمان إمكانية [البحث](/tag/البحث) عنها على المدى الطويل.

قدمت مجموعة من [الباحثين](/tag/الباحثين) مفهوم [ذاكرة بصرية](/tag/[ذاكرة](/tag/ذاكرة)-بصرية) عصرية (Visual Agentic Memory - VAM)، وهو إطار مبتكر لا يتطلب أي [تدريب مسبق](/tag/[تدريب](/tag/تدريب)-مسبق) ويتميز بثلاث مكونات رئيسية. أولها، الفهرسة [عبر](/tag/عبر) الإنترنت (Online Indexing) والتي تدعم الاحتفاظ الانتقائي بالأدلة تحت [قيود](/tag/قيود) [البث](/tag/البث). الأمر الثاني هو [الذاكرة](/tag/الذاكرة) الهرمية (Hierarchical Memory) التي تنظم العناصر المحتفظ بها في تمثيل متوازٍ (Parallel Representation) ينسجم مع [السياق](/tag/السياق) الزمني والمشاهدات المكانية. وأخيراً، استرجاع [وكيل](/tag/وكيل) (Agentic Retrieval) الذي يقوم بالبحث، والمعاينة، والتحقق من [الأدلة](/tag/الأدلة) المرشحة قبل تقديم إجابة مؤكدة.

على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) OVO-Bench، حققت VAM أفضل متوسط ​​نتيجة (68.41) مقارنةً بجميع [المعايير](/tag/المعايير) المبلغ عنها، متفوقة على الاستخدام الكامل لنفس [نموذج اللغة](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)) القوي ([Gemini](/tag/gemini) 3 Flash) الذي سجل 67.46. بالإضافة إلى ذلك، عند [تحليل البيانات](/tag/[تحليل](/tag/تحليل)-[البيانات](/tag/البيانات)) على مدى شهر من الوقت على مجموعة MM-Lifelong train@month (105.6 ساعة على مدى 51 يومًا)، حققت VAM نسبة 17.11%، لتتبعها فقط طريقة ReMA باستخدام [GPT-5](/tag/gpt-5) بمعدل 17.62%.

تظهر هذه النتائج أن [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات) الطويلة يستفيد كثيراً من اعتبار [الذاكرة](/tag/الذاكرة) البصرية كقاعدة واضحة وقابلة للفحص والاستعلام، مما يمهد الطريق لتطبيقات جديدة وإمكانيات [بحث](/tag/بحث) واستخدام متطورة. للمزيد من المعلومات، يمكنك زيارة [كود](/tag/كود) المشروع المتاح على [GitHub](/tag/github) [عبر](/tag/عبر) الرابط: [https://github.com/yiliu-li/Visual-Agentic-Memory].

ما رأيكم في هذا التطور المثير؟ شاركونا في [التعليقات](/tag/التعليقات).