في عصر التكنولوجيا المتقدمة، حققت نماذج اللغات متعددة الوسائط (Multimodal Large Language Models) تقدمًا ملحوظًا في فهم الفيديوهات عند العمل في وضع عدم الاتصال. لكن، التحدي الحقيقي يكمن في التعامل مع الفيديوهات المتدفقة، حيث تتعثر النماذج الحالية في الحفاظ على أداء ثابت وسريع في نفس الوقت. هنا تتقدم HERMES كحل مبتكر، توفر بنية جديدة للتدريب دون الحاجة لتحميل إضافي.
يعتمد تصميم HERMES على فكرة الابتكار في الانتباه الميكانيكي، حيث تُعتبر ذاكرة KV كإطار هرمى يحتفظ بالمعلومات عبر مستويات متعددة من التفصيل. خلال مرحلة الاستدلال، يتم استخدام ذاكرة KV المضغوطة، مما يتيح فهم الفيديو بشكل فعّال تحت قيود الموارد.
الأهم أن HERMES لا يحتاج إلى عمليات حسابية إضافية عند تلقي استفسارات المستخدم، مما يضمن استجابات فورية خلال تفاعل الفيديو المتدفق. وقد أظهرت النتائج أنه يمكن لـ HERMES تحقيق سرعة تفكيك أسرع بعشرة أضعاف مقارنةً بالنماذج السابقة المتميزة.
بالإضافة إلى ذلك، حتى عند تقليل الرموز المرئية بنسبة تصل إلى 68% مقارنةً بالنماذج التقليدية، لا تزال HERMES تحقق دقة تفوق أو تماثل الأداء في جميع المعايير، مع زيادة تصل إلى 11.4% في مجموعات البيانات المتدفقة. تجسد HERMES مستقبل فهم الفيديو المتدفقة بكفاءة وسرعة، مما يمهّد الطريق لتجارب أكثر تفاعلية ودقة في عالم التكنولوجيا الحديثة.
HERMES: ثورة جديدة في فهم الفيديوهات المتدفقة عبر الذاكرة الهرمية!
تقدم HERMES بنية جديدة تحسن من فهم الفيديوهات المتدفقة بشكل فعال. تعتمد على ذاكرة هرمية لتخزين المعلومات، مما يسهل التفاعل في الوقت الحقيقي دون الحاجة لحسابات إضافية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
