يتجه عالم الذكاء الاصطناعي نحو تحقيق قفزات جديدة في تقنيات تتبع الأجسام، ومن بين الابتكارات الأخيرة نرى Model ViewSAM، الذي يعد بوابة جديدة نحو تجربة تتبع أكثر دقة وذكاءً.

يسعى نموذج تتبع الأجسام متعددة المشاهد بالإشارات اللغوية (Cross-view Referring Multi-Object Tracking - CRMOT) إلى تتبع عدة أجسام محددة بواسطة لغة طبيعية عبر مشاهد مختلفة للكاميرات، مع الحفاظ على هويات متسقة عالميًا. ورغم التقدم الملحوظ في هذا المجال، فإن الأساليب الحالية تعتمد بشكل كبير على التوصيفات المكانية المكلفة على مستوى الإطارات وإشراف الهوية عبر المشاهد.

لذا جاء نموذج ViewSAM لاستكشاف CRMOT تحت إشراف ضعيف باستخدام قدرات النماذج الأساسية. ومع ذلك، أظهرت دراستنا التجريبية أن التطبيق المباشر لنماذج أساسية مثل SAM2 و SAM3، حتى مع التعديلات الخاصة بالمهمة، لا يحقق فهمًا دقيقًا للتعبيرات المرجعية ولا يحافظ على هويات متسقة عبر المشاهد.

لكن، لا يزال بإمكان هذه النماذج إنتاج تتبعات موثوقة للأجسام يمكن استخدامها كإشراف زائف. وبالتالي، عدلنا النماذج الأساسية لتصبح مولدات للتسميات الزائفة، مقترحين إطار عمل من طرازين لـ CRMOT تحت إشراف ضعيف، باستخدام فقط تسميات فئات الأجسام باعتبارها إشرافًا مشوشًا.

في المرحلة الأولى، قمنا بتصميم استراتيجية إعادة تحفيز عبر رؤية معتمدة على التقارب لتحسين وتوصيل تتبعات SAM3 المولدة عبر الكاميرات، مما أنتج تسميات زائفة موثوقة عبر المشاهد للتدريب اللاحق. في المرحلة الثانية، قدمنا نموذج ViewSAM الذي يعتمد على SAM2، حيث يقوم بتمثيل الدلالات الشاملة عبر المشاهد.

بتجسيد التغيرات الناتجة عن المشاهد كشرط قابل للتعلم، يجسر ViewSAM الفجوة بين الملاحظات البصرية المتغيرة باختلاف المشاهد والتعبيرات النصية المستقرة، مما يمكّن تتبعًا موثوقًا عبر المشاهد باستخدام حوالي 10% إضافية فقط من المعلمات.

تظهر التجارب الواسعة أن ViewSAM يحقق أداءً متفوقًا في ظروف الإشراف الضعيف، ويظل متنافسًا مع الأساليب الخاضعة للإشراف الكامل. هل أنتم متحمسون لهذا الابتكار في تقنيات تتبع الأجسام؟ شاركونا آرائكم!