Google 開放 BERT 模型源碼　提供頂尖自然語言處理表現

人工智能企業趨勢 by Antony Shum on 5 十一月, 2018

Google 在人工智能相關研究上取得的成果一向相當優異，之前公佈的 BERT 模型更在自然語言處理方面再次打破記錄，獲得不少人的垂青。最近 Google 終於把這個模型的源碼等組件開源，為開發者社群帶來強力工具。

BERT 模型是一個對語言特徵進行預先訓練的方式，透過大型文本數據庫訓練，獲得通用語言理解模型。這個模型可以在自然語言處理下游工作中應用，其中包括常用的對人問答處理等。而 BERT 是首個用於自然語言處理預先訓練的無監督，雙向深層系統，只需要應用文本數據庫就可以進行訓練，減少大量開發程序，而效果亦相當出色。

Google 今次在 Github 開源的除了是 BERT 模型的 TensorFlow 源碼外，也有 BERT-Base 與 BERT-Large 模型的預先訓練檢查點、微調實驗結果的自動化復現 TensorFlow 源碼、預先訓練數據生成和數據訓練的源碼，可謂相當全面。

BERT 在之前的史丹福 SQuAD 閱讀理解測試中，取得了 93.2% 準確度的極高分數，比人類閱讀的基準分數 91.6% 還要高，在另一個 GLUE 基準測試中也錄得了 80.4% 的準確度。有了這個工具，開發者就可以製作更加準確理解自然語言的應用，在人工智能的開發上帶來不小的助力。

來源：Venture Beat