يشكل إعادة بناء المحفزات البصرية من تسجيلات نشاط الدماغ تحديًا مثيرًا ومهمًا في مجال فك المعاني من نشاط الدماغ. ومع التقدم الملحوظ في قدرات نماذج توليد الصور من النصوص (Text-to-Image Generation Modelsتمكن الباحثون من تجسيد صور قريبة من المحفزات البيئية المعقدة من حيث الدلالة، مثل المفاهيم والأشياء. إلا أن الحفاظ على اتساق المعلومات الهيكلية الدقيقة، مثل الموقع والاتجاه والحجم، يمثل تحديًا يؤثر على القدرة على التحكم في الأنموذج وموثوقيته.

لذلك، يطرح الباحثون إطار عمل يُسمى MindDiffuser، والذي يتكون من مرحلتين رئيسيتين لإعادة بناء الصور. في المرحلة الأولى، تُستخدم الترميز النصي المستخلص من استجابة الدماغ عبر تقنية Contrastive Language-Image Pretraining (CLIP) كمدخلات لنموذج Stable Diffusion، مما يؤدي إلى إنشاء صورة أولية تحتوي على المعلومات الدلالية.

بالانتقال إلى المرحلة الثانية، يتم استخدام الميزات البصرية السطحية المستخلصة من CLIP كإشارات إشرافية، حيث يتم تعديل المتجهات من المرحلة الأولى باستخدام تقنية العودة للوراء (Backpropagation) لضبط المعلومات الهيكلية.

تُظهر التجارب الواسعة التي أجريت على بيانات استجابة الدماغ عبر ثلاثة أنماط (fMRI، EEG، MEG) أنها تعزز بشكل كبير الأداء مقارنة بالنماذج السابقة. وتُظهر نتائج التصوير المكاني والزماني فعالية وقابلية التطبيق لهيكل العمل المقترح، مما يفتح آفاقًا جديدة لفك رموز النشاط العصبي عبر أنماط إشارة الدماغ المختلفة.