في عالم الذكاء الاصطناعي، أصبحت محولات الرؤية المعززة (Vision Transformers) هي المعيار الجديد لفهم الصور بدقة. ولكن هناك تحدي كبير: كيف يمكننا جعل هذه النماذج تتفاعل بشكل أفضل مع الطريقة التي يدرك بها البشر الصور؟ في دراسة جديدة، تم تقديم حلاً مبتكرًا لهذا التحدي.

لقد قام الباحثون بتعديل أوزان الانتباه الذاتي (self-attention weights) لنموذج ViT-B/16 من جوجل على خرائط التركيز البشري، وهذا ما أسفر عن نتائج مثيرة. من خلال مقارنة النموذج المعدل بنموذج آخر تم توزيعه عشوائيًا، اتضح أن عملية الضبط الدقيق (fine-tuning) أسهمت في تحسين التوافق مع خمس مقاييس مختلفة للتركيز.

كما ظهر أن هذه العملية أدت إلى إحداث ثلاثة انحيازات تشبه توجهات البشر: تم عكس انحياز النموذج الأساسي ضد الأجسام الكبيرة نحو الأجسام الصغيرة، كما زادت تفضيلات الحركة وانخفضت شدة الارتباك في الانتباه.

الأهم من ذلك، أظهرت التحليلات الإحصائية أن هذا التقارب الإدراكي لم يؤثر سلبًا على أداء النموذج الأصلي في التصنيف عند تقييمه على عدة مجموعات بيانات، بما في ذلك (ImageNet) و(ImageNet-C) و(ObjectNet). على عكس ذلك، عندما تم تطبيق نفس الإجراء على شبكة عصبية تلافيفية (Convolutional Neural Network) مثل ResNet-50، تدهورت دقة النموذج، مما يبرز تميز آلية التركيز الذاتي في محولات الرؤية.

تقدم هذه النتائج فرصة مميزة لتعزيز سد الفجوات الإدراكية بين البشر والآلات، مما يجعل محولات الرؤية أكثر فهمًا ووضوحًا. إن التجارب التالية قد تشير إلى كيف يمكن لمبادئ مبنية على الأساس البيولوجي أن تقود إلى تحسينات جديدة في مصداقية التحولات الذكية.