في عالم الذكاء الاصطناعي، يبرز مصطلح "التمثيلات العصبية" كعنصر أساسي في عملية التعلم وفهم الصور. في دراسة جديدة، قام الباحثون بالإضاءة على الدور الحيوي الذي يلعبه الطور (Phase) في كاشفات الصور، حيث قاموا باختبار فرضية أوبنهايم-ليم (Oppenheim-Lim) التي تعود إلى عام 1981.

تظهر الدراسة أن الصور الطبيعية تحتفظ بقدرتها على التعرف حتى عند إعادة بنائها باستخدام الطور فقط، بينما يعتبر الحجم (Magnitude) أقل أهمية من ناحية تحديد الهوية. ارتكزت التجربة على فكرة زراعة طور صورة واحدة على حجم صورة أخرى وتحليل تأثير ذلك على دقة النموذج.

تم استخدام نماذج مثل PRISM2D وGFNet وViT-B/16، حيث أظهرت النتائج أن توقعات النموذج اتبعت دائمًا صورة الطور المانح، في حين أن حذف الحجم الخاص بالصورة لم يؤثر بشكل كبير على الدقة، مما يعني أن الهوية تعتمد بشكل كبير على الطور.

ومع ذلك، كان لنموذج ResNet-50 نتائج أولية مُفاجئة، حيث لم تؤثر عملية زراعة الطور بعد تطبيق دالة التنشيط (ReLU). لكن التدخل العادل قبل دالة ReLU كشف عن وجود كود مختبئ قوي يتعلق بالطور في الطبقات المتأخرة، مما يتطلب مزيدًا من الفهم والتعمق في هذا المجال.

في النهاية، تظهر هذه النتائج المشتركة بين المعمارية كيف يشارك نموذج التعلم العميق كود هوية الطور مع تعبيرات مختلفة، ما يفسر الفجوة بين الشبكات العصبية التلافيفية (CNNs) ونماذج الانتباه (Attention Models).