يشهد عالم معالجة الصور والذكاء الاصطناعي تحولًا مثيرًا مع ظهور دراسة جديدة توضح كيفية تحسين تدريب نماذج التوكنر (tokenizers) عبر تقنية تدفق الانحدار فاسرشتاين (Wasserstein Gradient Flow).

يتم عادةً تدريب نماذج التوكنر في مرحلتين: الأولى لتوليد النسخ، والثانية لتطبيق نموذج قبلي (prior model) يناسب تسلسل التوكنات المتجمد. بل إن هذه العملية تفصل بين التدريب والتوليد، مما يترك التوكنر عاجزًا عن فهم النموذج الذي سيولد توكناته لاحقًا.

تم تحليل هذه المشكلة من خلال مفهوم تماسك متغيرات ثلاثي (Tripartite Variational Consistency - TVC) الذي يقسم تعلم المتغيرات الكامنة إلى ثلاثة شروط للتماسك: التماسك في الاحتمالية الشرطية، والتماسك القبلي، والتماسك في الاحتمالية الخلفية. يُظهر TVC أن التدريب على مرحلتين يحافظ على جانب إعادة البناء ولكنه يترك التماسك القبلي خارج هدف التوكنر.

استجابةً لهذه الفجوة، قام الباحثون بإضافة إشارة تطابق على مستوى التوزيع أثناء تدريب التوكنر، مع الحفاظ على هدف إعادة البناء. وتم تحسين هذه الإشارة باستخدام تحديث تدفق الانحدار فاسرشتاين. في حالة التوكنات الفئوية الصعبة، انخفض هذا التحديث إلى تباين على مستوى التوكن بين نموذج AR المساعد الذي يتتبع توزيع التوكنات الحالي للتوكنر، والنموذج القبلي المستهدف. وهذا يتطلب فقط تمريرات للأمام عبر النموذجين دون الحاجة إلى تمرير عكسي.

نتيجةً لذلك، تمكن النموذج المعروف باسم wAR-Tok من تقليل خسارة AR وتحسين جودة التوليد على مجموعتي البيانات المشهورتين CIFAR-10 وImageNet، مع الحفاظ على جودة الإعادة البناء العادية.

إن هذا التقدم في تدريب نماذج التوكنر يعكس قدرة الذكاء الاصطناعي على التطور وتحقيق نتائج أفضل في معالجة الصور. فما هي الآفاق المستقبلية لتقنيات مماثلة في الذكاء الاصطناعي؟ شاركونا آرائكم!