شهدت تقنيات الذكاء الاصطناعي تطورات متسارعة في السنوات الأخيرة، ومن بين هذه التطورات يبرز نموذج ViTok-v2 كأحد أبرز الابتكارات في مجال تشفير الصور. تمثل هذه التقنية تطورًا كبيرًا في نموذج Vision Transformer (ViT) الذي يُعد من أقوى النماذج في معالجة الصور.

من خلال تقديم الدعم للقياسات الأصلية عبر تقنية NaFlex، يتيح ViTok-v2 التحسين عبر مختلف القياسات ونسب الأبعاد، مما يحل العديد من الدراسات السابقة التي كانت محدودة في نطاق التطبيقات العملية. كما أن إدخال خسارة DINOv3 الإدراكية، التي تحل محل أهداف LPIPS وGAN، يحمل في طياته فرصة لتدريب أكثر استقراراً عند أي نطاق.

تعتبر ViTok-v2 الأضخم من حجمها حيث يتضمن حوالي 5 مليار معلمة، مما يجعلها الأوسع في السوق حتى الآن. وقد أظهرت التجارب أن هذا الابتكار لا يتفوق فقط على نماذج إعادة البناء المتطورة عند دقة 256 بكسل، بل يتخطى جميع النماذج الأخرى عند دقة 512 بكسل وما فوق.

كما أظهرت التجارب الجماعية مع مولدات التدفق أن زيادة حجم كل من نموذج التشفير والمولد تساهم في دفع الحدود الأمامية لتوازن الأداء، مما يفتح آفاقًا جديدة للباحثين والمطورين في هذا المجال.