في عالم الذكاء الاصطناعي المتطور، يُعد Qwen3-VL-Seg نموذجًا مثيرًا للدهشة في معالجة تقسيم المشاهد الناطقة. يقدم هذا الإطار المبتكر حلاً لتحديات تقسيم المشاهد في بيئات العالم المفتوح، مما يمكّن من الربط الدقيق بين التعبيرات اللغوية غير المقيدة والمناطق الدقيقة على مستوى البكسل.

على الرغم من أن النماذج الكبيرة متعددة الوسائط (MLLMs) أثبتت كفاءتها في التأسيس البصري المفتوح، إلا أن نتائجها تكاد تقتصر على إحداثيات الصناديق المتفرقة، مما يجعلها غير كافية للتنبؤات البصرية الكثيفة. كانت الأساليب السابقة تعتمد إما على التنبؤ بإحداثيات الحدود المتفرقة، أو الاعتماد على نماذج تقسيم خارجية، مع ما يتطلبه ذلك من بنية معمارية معقدة وأعباء إضافية في النشر.

يستجيب Qwen3-VL-Seg لهذه التحديات من خلال إطار فعال من حيث المعلمات، حيث يعامل صندوق الإهتمام المتوقع من النموذج كأولوية هيكلية ذات دلالة، ويتم تحويله إلى تقسيم مرجعي على مستوى البكسل. يتضمن التصميم الأساسي لديكود ماسك مرن يعمل على دمج الميزات المكانية متعددة المقياس، وتكوين استفسارات مكانية ودلالية، ودمج بكسلات عالية الدقة مسترشدة بالصندوق، مع تحسين استفسارات الماسك بشكل متكرر.

ويحتوي هذا النموذج على 17 مليون معلمة فقط، وهو ما يمثل 0.4% من نموذج الأساس، مما يجعله خفيف الوزن ولكنه فعال. من أجل تدريب مفتوح العالم القابل للتوسع، تم إنشاء مجموعة بيانات SA1B-ORS التي تُقسم إلى مجموعتين فرعيتين: SA1B-CoRS (عينات موجهة نحو الفئة) وSA1B-DeRS (عينات وصفية خاصة بالمواقف).

نقوم أيضاً بإعداد ORS-Bench Benchmark، الذي يضم مجموعة يدوية من العينات لتقييم الأداء في أنواع مختلفة من التعبيرات المرجعية. تظهر التجارب الواسعة على تقسيم التعبيرات المرجعية وتأسيس الرؤية أن Qwen3-VL-Seg يقدم أداءً ممتازًا في إعدادات مغلقة ومفتوحة، مع مزايا واضحة في التعليمات الكثيفة لغة وقوة عمومية مع التوسع في الاستخدامات المتعددة.

هل تعتقد أن Qwen3-VL-Seg سيفتح آفاقًا جديدة في قدرات الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.