多模态同步语言神经影像数据集
发布时间:2023-12-22浏览量:1. 数据集名称:
多模态同步语言神经影像数据集
2. 数据集基本情况:
•项目背景:
–该数据集由中国科学院自动化研究所自然语言处理研究组利用自然语言刺激收集到的大规模、高质量神经影像数据,旨在研究涉及大脑语言处理的各种问题。
•样本信息:
–受试者信息: 4名女性,8名男性,年龄在23-30岁之间
–数据类型: 功能核磁共振图像(fMRI),高时间分辨率的脑磁图(MEG),T1/T2加权结构像,扩散磁共振成像(diffusion MRI)和静息态核磁共振(resting MRI)
–自然语言刺激信息: 自然语言刺激包括60个故事的音频,时长为4到7分钟,所有故事共有52269 个词语,每个故事包括608 到1076 个词语。
•其他重要信息:
–数据集提供了原始的以及经过预处理的核磁共振图像(MRI)和脑磁图MEG。对于核磁共振图像(MRI),我们在https://www.humanconnectome.org/software/hcp-mr-pipelines上使用了最小预处理管道(HCP)对结构、功能、静息和弥散图像进行预处理;对于脑磁图(MEG),首先使用Maxfilter 软件(Elekta-Neuromag)中的时间信号空间分离(tSSS)方法对原始数据进预处理,然后,使用插值法排除Maxfilter 自动识别出的默认阈值不良通道(每位受试者3-11 个通道),并且在http://www.martinos.org/mne/的MNE软件上利用独立成分分析(ICA)方法来去除磁场伪影。
–除了神经影像数据,还提供了丰富的音频和文本注释,包括语音到文本的对齐、字频和词频、各种语言模型的词嵌入结果、词语的POS标签以及句法树。
3. 适用任务:
•研究大脑语言处理,包括语义表征、句法处理以及理解语言时的注意力和记忆机制
•改进相关语言处理模型
4. 下载地址:
•https://openneuro.org/datasets/ds004078/versions/1.2.1/download
5. 文献出处:
•Wang, S., Zhang, X., Zhang, J. et al. A synchronized multimodal neuroimaging dataset for studying brain language processing. Sci Data 9, 590 (2022).