Google 發表全新聊天機械人 Meena　採用 341 GB 文本作訓練

對話機械人技術對於例如客戶服務等應用場景十分實用，而除了針對特定用途的模型，也有一些開放領域的聊天機械人模型，可以應付不同的對答，但開發難度自然更高。最近 Google 發表了全新的開放領域聊天機械人 Meena，用了多達 341 GB 的文本內容來訓練，據稱其對話能力直逼真人。

Google 表示，開放領域對話機械人的限制很多，很多模型雖然可以進行對話，但對話內容通常沒有意義，前言不對後語，也缺乏基本常識，空泛的表現令這些模型的應用方式有很大限制。而 Meena 的特別之處，是可以學習對話的上下文邏輯，從而作出合理的回應，儘量減少困惑指標。Google 指，Meena 擁有有一個編碼器模塊和 13 個解碼器模塊，前者處理對話的上下文，理解對話的內容，而後者就是分析資訊，從而生成回應，Google 指，他們發現強大的解碼器是提高對話品質的關鍵。

Meena 有 26 億個參數，使用 341 GB 文本訓練，這些數據都是從公共領域的社交媒體對話中篩選，其完整版本 SSA 分數達到 79％，與真人的 86％分數相差不遠。SSA 分數是 Google 訂立的聊天機械人指標，利用衆包的方式測試機械人的對答是否有意義和具體。目前其他開放領域聊天機械人的表現也大概只有 56% 或以下，因此 79% 的 SSA 可以說是非常標青。

來源：Google