Google 在人工智能相關研究上取得的成果一向相當優異,之前公佈的 BERT 模型更在自然語言處理方面再次打破記錄,獲得不少人的垂青。最近 Google 終於把這個模型的源碼等組件開源,為開發者社群帶來強力工具。
BERT 模型是一個對語言特徵進行預先訓練的方式,透過大型文本數據庫訓練,獲得通用語言理解模型。這個模型可以在自然語言處理下游工作中應用,其中包括常用的對人問答處理等。而 BERT 是首個用於自然語言處理預先訓練的無監督,雙向深層系統,只需要應用文本數據庫就可以進行訓練,減少大量開發程序,而效果亦相當出色。
Google 今次在 Github 開源的除了是 BERT 模型的 TensorFlow 源碼外,也有 BERT-Base 與 BERT-Large 模型的預先訓練檢查點、微調實驗結果的自動化復現 TensorFlow 源碼、預先訓練數據生成和數據訓練的源碼,可謂相當全面。
BERT 在之前的史丹福 SQuAD 閱讀理解測試中,取得了 93.2% 準確度的極高分數,比人類閱讀的基準分數 91.6% 還要高,在另一個 GLUE 基準測試中也錄得了 80.4% 的準確度。有了這個工具,開發者就可以製作更加準確理解自然語言的應用,在人工智能的開發上帶來不小的助力。
來源:Venture Beat