في عالم الذكاء الاصطناعي، تواصل نماذج التعلم الآلي تحقيق إنجازات متقدمة، وأحدث التطورات تأتي مع تقديم نموذج X2SAM الذي يعد بمثابة نقلة نوعية في تقنيات تقسيم الصور والفيديوهات.
لقد أظهرت نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) قدرة كبيرة على فهم الصور وفهم التصورات البصرية، لكن كانت هناك قيود فيما يتعلق بالتعامل مع الصور والفيديوهات على مستوى البكسل. رغم أن نماذج تقسيم الأساس مثل سلسلة SAM تصنع أقنعة عالية الجودة، إلا أنها تعتمد على الموجهات البصرية ذات المستوى المنخفض ولا تستطيع تفسير التعليمات المعقدة بشكل مباشر.
تحل X2SAM هذه المشكلة من خلال تقديم نموذج موحد يدعم قدرات تقسيم متعددة من الصور إلى الفيديوهات. فمع التعليمات الحوارية والموجهات البصرية، ينسق هذا النموذج بين نموذج اللغة الكبيرة (LLM) ووحدة ذاكرة القناع التي تخزن خصائص الرؤية الموجهة، مما يمكّن من توليد أقنعة فيديو متناسقة زمنياً.
يتميز X2SAM بدعم مجموعة متنوعة من الخدمات منها توليد محادثات مدعومة بالمعلومات البصرية، وتقسيم مرن عبر مدخلات الصور والفيديو، مما يجعله الخيار الأمثل للمطورين والمستخدمين على حد سواء.
كما تم تقديم معيار تحدي تقسيم الفيديو المدعوم بصريًا (Video Visual Grounded - V-VGD) لتقييم قدرة النموذج على تقسيم مسارات الكائنات في الفيديوهات استجابة للموجهات البصرية التفاعلية.
من خلال استراتيجية تدريب مشتركة موحدة عبر مجموعات بيانات الصور والفيديو المتنوعة، يوفر X2SAM أداءً قويًا في تقسيم الفيديو، ويتنافس بشكل فعال مع معايير تقسيم الصور التقليدية، مما يضمن الحفاظ على القدرة العامة في المحادثات المتعلقة بالصورة والفيديو.
X2SAM: ثورة جديدة في تقنيات تقسيم الصور والفيديوهات!
تمثل X2SAM حلاً مبتكرًا لتكنولوجيا تقسيم الصور والفيديوهات، حيث تجمع بين قوة نماذج اللغة الكبيرة وتقنيات تقسيم الكائنات. بفضل هذا النموذج، بات بالإمكان تحقيق تناسق بصري مذهل في معالجة المحتوى المتعدد الوسائط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
