هل سئمت من التأخيرات الطويلة التي تواجهها أثناء تحرير الصور باستخدام برامج مثل Photoshop؟ التقنية الجديدة التي تطرحها HiLo-Token تعد بحل هذه المشكلة بفعالية فائقة! تعتبر أدوات تحرير الصور الإبداعية مثل أزرار "إزالة" أو "التعبئة التوليدية" في برنامج Photoshop جزءًا أساسيًا من تجربة المستخدم اليومية، لكنها غالبًا ما تواجه تحديات كبيرة تتمثل في زمن الاستجابة.

تشير الدراسات إلى أن نماذج الذكاء الاصطناعي الحالية تعاني من تحديات ملحوظة تتعلق بالزمن، وتصبح هذه التحديات أكثر وضوحًا عند الانتقال من نماذج U-Nets القائمة على الالتفاف إلى نماذج Diffusion Transformers (DiTs). فقد أظهرت التقييمات على مئات نماذج تحرير الصور أن وحدة DiT وحدها تمثل في المتوسط 73% من إجمالي زمن النموذج، رغم تقليصها من 50 خطوة زمنية إلى 8 خطوات.

لتجاوز هذه التحديات، قدم فريق البحث تقنية HiLo-Token، وهي إطار عمل لضغط الرموز (Token Compression) يتكيف مع مدخلات الصورة، حيث يتم تخصيص المزيد من الرموز للمناطق عالية التردد والغنية بالسياق، بينما يتم تقليل الرموز في المناطق ذات التردد المنخفض. وفيما يتعلق بمنطقة التحرير المحددة من قبل المستخدم، يحتفظ هذا الإطار بجميع الرموز داخل قناع موسع للحفاظ على القرب القوي والأهمية السياقية.

أما خارج منطقة التحرير، فقد تم تنفيذ استراتيجية اختيار رموز عالية التردد تعتمد على التردد المكاني لالتقاط التفاصيل المحلية المهمة، مع استخدام رموز من صورة تم تخفيض دقتها إلى 16x لتمثيل المكونات ذات التردد المنخفض والحفاظ على الهيكل العام.

تظهر التجارب الشاملة على بيانات تقييم بمستوى الإنتاج فعالية هذه الطريقة الجديدة، حيث تحقق تسريعاً بمعدل 3.13x، 2.59x، و1.67x على بطاقات A100-80GB لمهام تعديل الصور عبر فئات القناع الصغير والمتوسط والكبير، مع متوسط من المعدلات 6.38%، 15.92%، و35.36% على التوالي، دون أي تدهور في جودة الناتج.

ما رأيكم في هذا التقدم المذهل؟ شاركونا في التعليقات!