في عالم الذكاء الاصطناعي، يمثل الفهم البصري المدمَج (Embodied Visual Reasoning) خطوة مهمة نحو تحقيق ذكاء أكثر طبيعية ومرونة. تسعى أنظمة الفهم البصري إلى اتباع تعليمات معقدة وغير ثابتة، استنادًا إلى مقاطع فيديو ذات وجهة نظر شخصية، مما يتطلب فهماً سيميائياً (Semantic Understanding) وقدرة على الاستدلال الزمكاني (Spatiotemporal Reasoning) في البيئات المتغيرة. وعلى الرغم من الإمكانيات الكبيرة التي يتمتع بها هذا المجال، إلا أنه يواجه مجموعة من التحديات الجسيمة نتيجة لتنوع التعليمات المعقدة والديناميكيات الزمكانية المعقدة في مقاطع الفيديو طويلة المدى.
تستند الحلول السابقة عادة إلى نماذج اللغة الضخمة (Large Language Models - LLMs) التي تعتمد على تسميات فيديو ثابتة، مما يؤدي في كثير من الأحيان إلى تجاهل تفاصيل بصرية حيوية. أو أنها تستخدم نماذج الرؤية واللغة (Vision-Language Models - VLMs) التي تعاني من صعوبة في الاستدلال المتدرج.
لذا، قمنا بتطوير CLiViS، وهو إطار عمل مبتكر لا يتطلب تدريبًا، حيث يستفيد من LLMs للتخطيط عالي المستوى، وينظم التصورات البصرية مفتوحة العالم المدعومة من VLMs لتحديث سياق المشهد بشكل تتابعي.
يمثل جوهر CLiViS خريطة عقلية ديناميكية تتطور خلال عملية الاستدلال، مما يوفر تمثيلاً منظمًا للمشهد المدمَج، ويربط بين الإدراك منخفض المستوى والاستدلال عالي المستوى.
أظهرت التجارب المكثفة على مجموعة من المعايير فعالية CLiViS وعموميته، خصوصًا في معالجة الاعتمادات البصرية طويلة المدى. يمكن الاطلاع على الكود الخاص بالإطار على رابط GitHub.
إذا كنت مهتمًا بتطورات الذكاء الاصطناعي، فما رأيك في هذا الابتكار الجديد؟ شاركنا آرائك في التعليقات!
CLiViS: ثورة في الفهم البصري باستخدام تكامل اللغة والتصور!
قدمت CLiViS إطار عمل مبتكر يمزج بين نماذج اللغة الضخمة (LLMs) ونماذج اللغة والرؤية (VLMs) لتحقيق reasoning بصري مدمَج متفوق. هذا الحل يعالج تحديات التعقيد البصري والفهم السيميائي في البيئات الديناميكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
