يشكل إعادة بناء المحفزات البصرية من تسجيلات نشاط الدماغ تحديًا مثيرًا ومهمًا في مجال فك المعاني من نشاط الدماغ. ومع التقدم الملحوظ في قدرات نماذج توليد الصور من النصوص (Text-to-Image Generation Models)، تمكن الباحثون من تجسيد صور قريبة من المحفزات البيئية المعقدة من حيث الدلالة، مثل المفاهيم والأشياء. إلا أن الحفاظ على اتساق المعلومات الهيكلية الدقيقة، مثل الموقع والاتجاه والحجم، يمثل تحديًا يؤثر على القدرة على التحكم في الأنموذج وموثوقيته.
لذلك، يطرح الباحثون إطار عمل يُسمى MindDiffuser، والذي يتكون من مرحلتين رئيسيتين لإعادة بناء الصور. في المرحلة الأولى، تُستخدم الترميز النصي المستخلص من استجابة الدماغ عبر تقنية Contrastive Language-Image Pretraining (CLIP) كمدخلات لنموذج Stable Diffusion، مما يؤدي إلى إنشاء صورة أولية تحتوي على المعلومات الدلالية.
بالانتقال إلى المرحلة الثانية، يتم استخدام الميزات البصرية السطحية المستخلصة من CLIP كإشارات إشرافية، حيث يتم تعديل المتجهات من المرحلة الأولى باستخدام تقنية العودة للوراء (Backpropagation) لضبط المعلومات الهيكلية.
تُظهر التجارب الواسعة التي أجريت على بيانات استجابة الدماغ عبر ثلاثة أنماط (fMRI، EEG، MEG) أنها تعزز بشكل كبير الأداء مقارنة بالنماذج السابقة. وتُظهر نتائج التصوير المكاني والزماني فعالية وقابلية التطبيق لهيكل العمل المقترح، مما يفتح آفاقًا جديدة لفك رموز النشاط العصبي عبر أنماط إشارة الدماغ المختلفة.
إعادة بناء الصور من نشاط الدماغ: إطار مبتكر يجمع بين الدلالات الهيكلية والمعرفية!
تمكن الباحثون من تطوير إطار عمل ثنائي المراحل يُدعى MindDiffuser، يُعيد بناء الصور من استجابة الدماغ بدقة ملحوظة. هذه الخطوة تمثل طفره نوعية في مجال واجهات الدماغ والحاسوب!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
