最近武漢肺炎疫情開始在歐美擴散,美國方面亦採取官方與民間企業合作的方式,去從各方面加速研究對付疫情的方法。最近 Microsoft、白宮以及 Allen Institute 就合作發佈了武漢肺炎相關的數據集,可用於醫學及 NLP 研究。
該數據集包含超過 13,000 篇相關文章,全部都可以輸入到人工智能系統中分析。研究人員希望,在公開這個大型數據集之後,可以透過自然語言處理(NLP)等新技術,對這些內容進行分析,找出有助醫療研究的內容。
Microsoft 科學總監 Eric Horvitz 表示,他們今次計劃的目標,是要鼓勵更多開發者為科學家建立工具,協助他們快速掌握大量研究文獻的重點,從而更有效研究對抗疫情的方法。目前在生物醫學方面,每年就已經有超過 100 萬篇論文,如果可以透過 NLP 等技術先行抽取有用的內容,提供搜尋和內容映射等功能,對於研究而言將會相當有幫助。
NLP 技術除了可以用來分析醫療論文,也正應用在分析患者記錄、社交媒體內容以及公共衛生數據等,對於快速掌握大量的網上資訊來找出趨勢和需要注意的內容非常有效。Allen Institute 的 Semantic Scholar 主管 Doug Raymond 表示,過去幾年我們在 NLP 方面取得了長足的進步,因此既然現在有了更多可以利用它的工具,今次公開的數據集將可以變得更加實用。
來源:Venture Beat