لقد حققت محولات الرؤية (Vision Transformers) نجاحًا كبيرًا في مجالات رؤية الكمبيوتر، لكن استخدام تشفير المواقع القابل للتعلم (learnable positional encodings) قد أثر على الهيكل المكاني الثنائي الأبعاد للصور، خاصة بعد عملية تسطيح الأجزاء. تكمن المشكلة في أن التشفيرات التقليدية غالبًا ما تفتقر إلى القيود الهندسية، ولا تتمكن من الحفاظ على العلاقة المتزايدة بين المسافات الهندسية والمسافات التسلسلية، مما يعيق قدرة المحولات على استغلال المعلومات المكانية.

إليك تقنية جديدة تُدعى Weierstrass Positional Encoding (WePE)، والتي تقدم طريقة ذات أساس رياضي لتشفير الإحداثيات ثنائية الأبعاد في النطاق المعقد. تعتمد WePE على رسم إحداثيات الأجزاء ثنائية الأبعاد على الطائرة المعقدة، وتساعد في إنشاء ميزات مكانية مدمجة ذات أربعة أبعاد باستخدام دالة Weierstrass البيانية ومشتقاتها.

توفر هذه التقنية تمثيلًا دقيقًا للإحداثيات بفضل خاصية التكرار المزدوج (double periodicity)، وهي مثالية لتطابق الهياكل الهندسية المنتظمة لشبكات أجزاء الصور. تساعد الخصائص الهندسية غير الخطية لWePE في تمثيل علاقات المسافة المكانية بدقة أكبر، بينما تجعل الصيغة الجبرية الإضافية (algebraic addition formula) إمكانية اشتقاق المعلومات النسبية لمواقع الأجزاء بين أي زوج من الأجزاء مباشرة من التشفيرات المطلقة.

أحد أهم مزايا WePE هو أنها قابلة للتطبيق بسهولة (plug-and-play) وغير مرتبطة بدقة معينة، مما يتيح دمجها بسهولة ضمن أي نموذج متواجد من محولات الرؤية. التجارب الواسعة أظهرت أن WePE تحقق تحسينات ملحوظة في الأداء في معظم الإعدادات، ودون أي زيادة ملحوظة في العبء الحسابي أو الاستخدام للذاكرة. علاوة على ذلك، تساهم التحليلات والدراسات الاستكشافية في التحقق من فعالية هذه الطريقة.

إذا كنت مهتمًا بالتطورات الجديدة في الذكاء الاصطناعي ورؤية الكمبيوتر، فلا تفوت فرصة التعرف على WePE وتأثيرها المحتمل على هذا المجال الديناميكي. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!