في عالم يتزايد فيه الاعتماد على المحتوى المرئي، يصبح [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات) الطويلة أمراً بالغ الأهمية. لكن الأمر لا يتطلب فقط معالجة [سياقات](/tag/سياقات) واسعة، بل يحتاج أيضاً إلى آلية [ذاكرة](/tag/ذاكرة) تتخذ [قرارات](/tag/قرارات) [استراتيجية](/tag/استراتيجية) حول [الأدلة](/tag/الأدلة) المرئية التي يجب الاحتفاظ بها، وضمان إمكانية [البحث](/tag/البحث) عنها على المدى الطويل.
قدمت مجموعة من [الباحثين](/tag/الباحثين) مفهوم [ذاكرة بصرية](/tag/[ذاكرة](/tag/ذاكرة)-بصرية) عصرية (Visual Agentic Memory - VAM)، وهو إطار مبتكر لا يتطلب أي [تدريب مسبق](/tag/[تدريب](/tag/تدريب)-مسبق) ويتميز بثلاث مكونات رئيسية. أولها، الفهرسة [عبر](/tag/عبر) الإنترنت (Online Indexing) والتي تدعم الاحتفاظ الانتقائي بالأدلة تحت [قيود](/tag/قيود) [البث](/tag/البث). الأمر الثاني هو [الذاكرة](/tag/الذاكرة) الهرمية (Hierarchical Memory) التي تنظم العناصر المحتفظ بها في تمثيل متوازٍ (Parallel Representation) ينسجم مع [السياق](/tag/السياق) الزمني والمشاهدات المكانية. وأخيراً، استرجاع [وكيل](/tag/وكيل) (Agentic Retrieval) الذي يقوم بالبحث، والمعاينة، والتحقق من [الأدلة](/tag/الأدلة) المرشحة قبل تقديم إجابة مؤكدة.
على [مجموعة بيانات](/tag/مجموعة-[بيانات](/tag/بيانات)) OVO-Bench، حققت VAM أفضل متوسط نتيجة (68.41) مقارنةً بجميع [المعايير](/tag/المعايير) المبلغ عنها، متفوقة على الاستخدام الكامل لنفس [نموذج اللغة](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)) القوي ([Gemini](/tag/gemini) 3 Flash) الذي سجل 67.46. بالإضافة إلى ذلك، عند [تحليل البيانات](/tag/[تحليل](/tag/تحليل)-[البيانات](/tag/البيانات)) على مدى شهر من الوقت على مجموعة MM-Lifelong train@month (105.6 ساعة على مدى 51 يومًا)، حققت VAM نسبة 17.11%، لتتبعها فقط طريقة ReMA باستخدام [GPT-5](/tag/gpt-5) بمعدل 17.62%.
تظهر هذه النتائج أن [فهم الفيديوهات](/tag/[فهم](/tag/فهم)-الفيديوهات) الطويلة يستفيد كثيراً من اعتبار [الذاكرة](/tag/الذاكرة) البصرية كقاعدة واضحة وقابلة للفحص والاستعلام، مما يمهد الطريق لتطبيقات جديدة وإمكانيات [بحث](/tag/بحث) واستخدام متطورة. للمزيد من المعلومات، يمكنك زيارة [كود](/tag/كود) المشروع المتاح على [GitHub](/tag/github) [عبر](/tag/عبر) الرابط: [https://github.com/yiliu-li/Visual-Agentic-Memory].
ما رأيكم في هذا التطور المثير؟ شاركونا في [التعليقات](/tag/التعليقات).
ذاكرة بصرية عصرية: كيف تحقق الفهم العميق للفيديوهات الطويلة عبر تقنيات متطورة!
تمثل ذاكرة بصرية عصرية (Visual Agentic Memory) تطوراً ملهماً في مجال فهم الفيديوهات الطويلة، تجمع بين تقنيات متقدمة لضمان احتفاظ ذكي بالأدلة المرئية. تم تحقيق نتائج مثيرة على مجموعة بيانات OVO-Bench، مما يفتح آفاقاً جديدة في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
