شهدت تقنيات تشفير الصور (Image Tokenization) خلال السنوات الأخيرة تقدمًا ملحوظًا، لكن ما زالت الطرق التقليدية تواجه تحديات كبيرة. فعلى الرغم من استخدامها الواسع، إلا أن هذه الطرق تميل إلى دمج معلومات زائدة من خلال مزج جميع مستويات التفصيل ضمن كل توكن (Token)، مما يؤدي إلى تكرار المعلومات ويعيق كفاءة عملية التدريب على المولدات (Generators).

هنا تأتي أهمية الابتكار الجديد، تقنية SelfBootTok، التي تُغير قواعد اللعبة في هذا المجال. الطريقتين التقليدية والأحدث تعتمدان على نموذج التعليم الذاتي (Self-Supervised Learning) لتفكيك المعلومات إلى مجموعات توكن عالمية ومحلية بشكل أنظف، مما يلغي الفوضى الناتجة عن مزج التفاصيل المختلفة.

تتميز SelfBootTok بقدرتها على توقع التفاصيل المحلية فقط من التوكنات العالمية، مما ينقل عبء التفاصيل البصرية من المولد إلى شيفر (Tokenizer). هذه الخطوة ليست فقط فعالة، بل تدل على كفاءة محسّنة للغاية، حيث يتطلب المولد الآن توكنات عالمية فقط، مما يقلل من استهلاك الموارد بحوالي 40%. ولكن الأهم من ذلك، أنه يوفر جودة وإعادة بناء متفوقين عن النماذج السابقة.

ليس هذا فحسب، بل يمكن استغلال هذه التقنية بفعالية في زيادة البيانات أو تغيير المعلمات، مما يعزز التعلم الذاتي لتمثيل التفاصيل المحلية. وقد نجح نموذج SelfBootTok في تحقيق سجل جديد في أداء gFID، حيث سجل 1.56 باستخدام 64 توكن فقط.

في عالم الذكاء الاصطناعي، يبدو أن هذه التقنية تحمل في جعبتها الكثير للنقاش والابتكار. فما رأيكم في هذه الثورة التقنية الجديدة في عالم ضغط الصور؟