في عالم التقنيات الحديثة، أصبحت نماذج اللغة الكبيرة (Large Language Models) القادرة على فهم الفيديوهات تحدياً جديداً، خصوصاً مع النمو المتزايد لتوكنات الفيديو وموارد الذاكرة. هنا يبرز الابتكار الجديد: OmniMem.
تسعى OmniMem إلى تعزيز كفاءة نماذج اللغة الكبيرة في معالجة الفيديوهات الطويلة عبر إطار عمل مبتكر يركز على تحسين ضغط الذاكرة أثناء تدفق البيانات. بدلاً من توحيد معالجة جميع التوكنات، تقدم OmniMem استراتيجية إدارة ذاكرة تعكس طبيعة كل نوع من البيانات بشكل منفصل، مما يخفف من عدم التوازن الحاد بين المعلومات البصرية والسمعية.
كما تحافظ OmniMem على حالة ذاكرة كسر القيمة (Key-Value) المفيدة وغير المتكررة بفضل تقنية الاختيار الواعي بالاضطراب، مما يساهم في خلق ذاكرة مضغوطة دون فقدان القدرة على الفهم بعيدة المدى.
في إطار تحسين الأداء تحت قيود الاستخدام الحقيقية، تمثل استراتيجية الضبط المدروس إحدى الأدوات التي تشجع النموذج على دمج المعلومات المفيدة في الذاكرة المحتفظ بها. وقد أظهرت التجارب على مجموعة بيانات VideoMME Long وLVBench وLVOmniBench أثرًا إيجابيًا، حيث أن OmniMem حسنت من أداء نماذج مثل video-SALMONN 2+ وQwen-2.5-Omni بنسبة 2-4% في الدقة المطلقة ضمن نفس ميزانيات الذاكرة وحققت زيادة إضافية بنسبة 1-2% بعد الضبط المدروس.
Odyssey جديد في عالم معالجة الفيديو، فهل أنتم مستعدون لاستكشاف المزيد عن OmniMem والتطورات المرتبطة بها؟
اكتشف OmniMem: ثورة في ضغط الذاكرة لتسهيل فهم الفيديوهات الطويلة!
تقدم OmniMem حلاً مبتكراً لتعزيز أداء نماذج اللغة الكبيرة في معالجة الفيديوهات الطويلة. يوفر النظام الجديد تقنية ضغط تعتمد على السياق، مما يجعل الفهم أكثر فعالية وكفاءة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
