في عالم يتزايد فيه الاعتماد على المحتوى المرئي، يصبح فهم الفيديوهات الطويلة أمراً بالغ الأهمية. لكن الأمر لا يتطلب فقط معالجة سياقات واسعة، بل يحتاج أيضاً إلى آلية ذاكرة تتخذ قرارات استراتيجية حول الأدلة المرئية التي يجب الاحتفاظ بها، وضمان إمكانية البحث عنها على المدى الطويل.
قدمت مجموعة من الباحثين مفهوم ذاكرة بصرية عصرية (Visual Agentic Memory - VAM)، وهو إطار مبتكر لا يتطلب أي تدريب مسبق ويتميز بثلاث مكونات رئيسية. أولها، الفهرسة عبر الإنترنت (Online Indexing) والتي تدعم الاحتفاظ الانتقائي بالأدلة تحت قيود البث. الأمر الثاني هو الذاكرة الهرمية (Hierarchical Memory) التي تنظم العناصر المحتفظ بها في تمثيل متوازٍ (Parallel Representation) ينسجم مع السياق الزمني والمشاهدات المكانية. وأخيراً، استرجاع وكيل (Agentic Retrieval) الذي يقوم بالبحث، والمعاينة، والتحقق من الأدلة المرشحة قبل تقديم إجابة مؤكدة.
على مجموعة بيانات OVO-Bench، حققت VAM أفضل متوسط نتيجة (68.41) مقارنةً بجميع المعايير المبلغ عنها، متفوقة على الاستخدام الكامل لنفس نموذج اللغة القوي (Gemini 3 Flash) الذي سجل 67.46. بالإضافة إلى ذلك، عند تحليل البيانات على مدى شهر من الوقت على مجموعة MM-Lifelong train@month (105.6 ساعة على مدى 51 يومًا)، حققت VAM نسبة 17.11%، لتتبعها فقط طريقة ReMA باستخدام GPT-5 بمعدل 17.62%.
تظهر هذه النتائج أن فهم الفيديوهات الطويلة يستفيد كثيراً من اعتبار الذاكرة البصرية كقاعدة واضحة وقابلة للفحص والاستعلام، مما يمهد الطريق لتطبيقات جديدة وإمكانيات بحث واستخدام متطورة. للمزيد من المعلومات، يمكنك زيارة كود المشروع المتاح على GitHub عبر الرابط: [https://github.com/yiliu-li/Visual-Agentic-Memory].
ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.
ذاكرة بصرية عصرية: كيف تحقق الفهم العميق للفيديوهات الطويلة عبر تقنيات متطورة!
تمثل ذاكرة بصرية عصرية (Visual Agentic Memory) تطوراً ملهماً في مجال فهم الفيديوهات الطويلة، تجمع بين تقنيات متقدمة لضمان احتفاظ ذكي بالأدلة المرئية. تم تحقيق نتائج مثيرة على مجموعة بيانات OVO-Bench، مما يفتح آفاقاً جديدة في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
