X2SAM: ثورة جديدة في تقنيات تقسيم الصور والفيديوهات!

في عالم الذكاء الاصطناعي، تواصل نماذج التعلم الآلي تحقيق إنجازات متقدمة، وأحدث التطورات تأتي مع تقديم نموذج X2SAM الذي يعد بمثابة نقلة نوعية في تقنيات تقسيم الصور والفيديوهات.

لقد أظهرت نماذج اللغة متعددة الوسائط (Multimodal Large Language Models - MLLMs) قدرة كبيرة على فهم الصور وفهم التصورات البصرية، لكن كانت هناك قيود فيما يتعلق بالتعامل مع الصور والفيديوهات على مستوى البكسل. رغم أن نماذج تقسيم الأساس مثل سلسلة SAM تصنع أقنعة عالية الجودة، إلا أنها تعتمد على الموجهات البصرية ذات المستوى المنخفض ولا تستطيع تفسير التعليمات المعقدة بشكل مباشر.

تحل X2SAM هذه المشكلة من خلال تقديم نموذج موحد يدعم قدرات تقسيم متعددة من الصور إلى الفيديوهات. فمع التعليمات الحوارية والموجهات البصرية، ينسق هذا النموذج بين نموذج اللغة الكبيرة (LLM) ووحدة ذاكرة القناع التي تخزن خصائص الرؤية الموجهة، مما يمكّن من توليد أقنعة فيديو متناسقة زمنياً.

يتميز X2SAM بدعم مجموعة متنوعة من الخدمات منها توليد محادثات مدعومة بالمعلومات البصرية، وتقسيم مرن عبر مدخلات الصور والفيديو، مما يجعله الخيار الأمثل للمطورين والمستخدمين على حد سواء.

كما تم تقديم معيار تحدي تقسيم الفيديو المدعوم بصريًا (Video Visual Grounded - V-VGD) لتقييم قدرة النموذج على تقسيم مسارات الكائنات في الفيديوهات استجابة للموجهات البصرية التفاعلية.

من خلال استراتيجية تدريب مشتركة موحدة عبر مجموعات بيانات الصور والفيديو المتنوعة، يوفر X2SAM أداءً قويًا في تقسيم الفيديو، ويتنافس بشكل فعال مع معايير تقسيم الصور التقليدية، مما يضمن الحفاظ على القدرة العامة في المحادثات المتعلقة بالصورة والفيديو.

X2SAM: ثورة جديدة في تقنيات تقسيم الصور والفيديوهات!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

اكتشف كيف تبني مساعد بحث مبتكر مدعوم بتقنية Groq!

كوبيلوت كيت تطلق منصة ذكاء مؤسسي تمنح التطبيقات ذاكرة دائمة عبر الجلسات والأجهزة!

من الإصدار vLLM V0 إلى V1: أهمية الدقة قبل التصحيحات في التعلم المعزز!