中科院團隊發(fā)布國際最大規模漢語(yǔ)同步多模態(tài)神經(jīng)影像數據集
中新網(wǎng)北京10月9日電 (記者 孫自法)中國科學(xué)院自動(dòng)化研究所(中科院自動(dòng)化所)9日向媒體發(fā)布信息說(shuō),該所自然語(yǔ)言處理研究組歷時(shí)近兩年,采集處理完成迄今國際上規模最大、包含信息最豐富的漢語(yǔ)同步多模態(tài)神經(jīng)影像數據集,并于近日正式對外發(fā)布。
該數據集覆蓋了近萬(wàn)個(gè)漢語(yǔ)詞匯,是當前國際上最大規模的用于腦語(yǔ)言處理機制研究的多模態(tài)同步神經(jīng)影像數據集。其相關(guān)研究成果論文已在《自然》(Nature)旗下專(zhuān)業(yè)學(xué)術(shù)期刊《科學(xué)數據》(Scientific Data)發(fā)表。
據中科院自動(dòng)化所自然語(yǔ)言處理研究組介紹,大腦在加工語(yǔ)言時(shí),需要實(shí)時(shí)調動(dòng)多個(gè)腦區的神經(jīng)元進(jìn)行協(xié)同工作。構建高時(shí)空分辨率的神經(jīng)影像數據可以幫助人們更好地了解各個(gè)腦區以及腦區之間的協(xié)同合作,對于研究大腦的語(yǔ)言加工機制至關(guān)重要。
當前已有的開(kāi)源數據主要針對英文采集,只包括單一模態(tài)的神經(jīng)影像數據,如高空間分辨率的功能核磁共振(fMRI)或高時(shí)間分辨率的腦磁圖(MEG),并且大多使用1小時(shí)以?xún)鹊膶?shí)驗材料,數據規模有限,無(wú)法借助數據需求量大的計算模型進(jìn)行更全面、更深入的大腦語(yǔ)言加工機制探索。
為突破上述問(wèn)題,該研究組歷時(shí)近兩年采集處理完成目前國際上規模最大、包含信息最豐富的漢語(yǔ)同步多模態(tài)神經(jīng)影像數據集,針對12個(gè)被試收聽(tīng)約6個(gè)小時(shí)故事時(shí)的功能核磁共振(fMRI)、腦磁圖(MEG)、每個(gè)被試的T1/T2加權結構像、擴散磁共振成像(diffusion MRI)和靜息態(tài)核磁共振(resting MRI)數據采集整理而成。為了便于利用計算模型進(jìn)行腦語(yǔ)言處理機制的研究,所有故事材料都由人工標注了句法結構樹(shù),計算了文本中每個(gè)詞匯對應的音頻時(shí)間點(diǎn)、詞頻以及多種不同字和詞匯的向量。同時(shí),所有測試指標均超越或可比于已有的同類(lèi)數據集,具有充分的質(zhì)量保證。
中科院自動(dòng)化所自然語(yǔ)言處理研究組表示,目前國際最大規模漢語(yǔ)同步多模態(tài)神經(jīng)影像數據集的公開(kāi)發(fā)布,可以為全方位研究大腦在真實(shí)場(chǎng)景下理解詞匯、短語(yǔ)和句子時(shí)如何調動(dòng)不同腦區以及不同腦區之間如何協(xié)同工作等科學(xué)問(wèn)題提供重要支撐。
特別值得注意的是,該數據集覆蓋了近萬(wàn)個(gè)漢語(yǔ)詞匯,這不僅對于研究大腦理解漢語(yǔ)的認知機理具有重要意義,而且將在探索自然語(yǔ)言計算模型與人腦語(yǔ)言處理機制之間的關(guān)系,研究如何利用神經(jīng)影像數據提升現有語(yǔ)言計算模型的性能,從而構建新一代受腦啟發(fā)的神經(jīng)語(yǔ)言模型等一系列工作中發(fā)揮顯著(zhù)作用。(完)
版權聲明:凡注明“來(lái)源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來(lái)源中國西藏網(wǎng)和署著(zhù)作者名,否則將追究相關(guān)法律責任。
- 人民日報:增強對當前疫情防控政策的信心和耐心
- 上海社會(huì )面9日新增2例陽(yáng)性感染者 包括一名12歲男童
- 我國進(jìn)入創(chuàng )新型國家行列 創(chuàng )新第一動(dòng)力更強勁
- 如何讓光照進(jìn)“高齡父母+殘障子女”家庭?
- 國家知識產(chǎn)權局:十年來(lái)累計減免專(zhuān)利、商標收費1262.8億元
- 官方:2035年基本建成中國特色、世界水平知識產(chǎn)權強國
- 央行:跨境交易總額近一半使用人民幣結算
- 小秦嶺何以成為黃河中游特有動(dòng)植物種類(lèi)最豐富地區?
- 江西持證就業(yè)年齡段殘疾人為68.79萬(wàn)人 就業(yè)率達58.84%
- 中央氣象臺繼續發(fā)布海上大風(fēng)黃色預警