في عالم الذكاء الاصطناعي، يظل الحفاظ على هوية الكائن في فيديو متحرك تحديًا كبيرًا. فعلى الرغم من أهمية التشابه في الوجوه، فإن التغيرات في الحركة، وزوايا الرؤية، والتعبيرات تلعب دورًا حاسمًا في قدرة النظام على التعرف على الهوية. هنا يأتي دور تقنية أرجوس (Argus)، التي تمثل طفرة نوعية في هذا المجال من خلال نظام مبتكر يعتمد على حقن الموزاييك المتعدد الرؤى (Stacked Multi-View Identity Mosaic Injection - SMII).

تعمل تقنية SMII على تحويل الأدلة البصرية المحددة بواسطة نماذج اللغات الضخمة (Large Language Models - MLLM) إلى موزاييك من 3×3، مما يسمح بالتزامن بين الموزاييك والوقت الحالي لعملية الانتشار. هذا لا يغير فقط هوية الكائن من مكون ثابت إلى توزيع ديناميكي، بل يسهل أيضًا تعديل الهوية في سياقات متغيرة.

علاوة على ذلك، يقوم مدير الهوية MLLM باختيار لحظات الهوية المهمة وحل أي تعارضات محتملة. استخدام تقنيات مثل التدريب غير المقارن والتهدئة الزمنية للهوية (Temporal Identity Annealing) تعزز من قوة النظام دون الحاجة إلى إشراف مباشر بخصوص موضوع الفيديو. وبالإضافة إلى ذلك، تم إصدار مجموعة البيانات HardID-Celeb، والتي تعتبر معياراً لقياس مستوى الضغط على هوية الشخصيات العامة.

تظهر نتائج أرجوس تفوقًا مذهلاً في تقييم OpenS2V-Eval Human-Domain، حيث حققت درجات مرتفعة تخطف الأنفاس تتراوح من 64.38 إلى 79.14. كما أن أداءها تفوق أيضًا في قياسات YawScore وOccScore، مما يثبت فعالية ذاكرة الهوية الديناميكية والتعلم الذاتي دون إشراف.

بفضل هذه التقنية، أصبح لدينا الأمل في تحقيق فيديوهات أكثر واقعية وموثوق بها تسجل لحظات الهوية بدقة لم يسبق لها مثيل. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.