AlphaGo 是否在隱藏實力示弱? 看看 DeepMind 研究團隊如何回應

前後兩次 AI 與人類的公開對弈,令大家意識到人工智能已不再是科幻電影中的內容。但在驚嘆 AlphaGo 出色戰績和表現的同時,網上亦出現不少意見指其實 AlphaGo 有意識地隱藏實力示弱,故意讓人類輸得不太難看。就筆者在烏鎮現場觀察,國內媒體似乎對該議題相當感興趣,多次向 DeepMind 團隊提出類似的問題。到底 AlphaGo 是否真的已覺醒自我意識並故意示弱?且看研究團隊如何回應。

前後兩次 AI 與人類的公開對弈,令大家意識到人工智能已不再是科幻電影中的內容。但在驚嘆 AlphaGo 出色戰績和表現的同時,網上亦出現不少意見指其實 AlphaGo 有意識地隱藏實力示弱,故意讓人類輸得不太難看。就筆者在烏鎮現場觀察,國內媒體似乎對該議題相當感興趣,多次向 DeepMind 團隊提出類似的問題。到底 AlphaGo 是否真的已覺醒自我意識並故意示弱?且看研究團隊如何回應。

 

AlphaGo 有意識隱藏實力? 只是最大化獲勝機率

在早前《AlphaGo 進步神速》的報導中提到,AlphaGo 能屢屢擊敗人類頂尖棋手,在於其先進的機器學習演算法,即策略網絡和價值網絡的結合分析,以對手的絕對勝利到 AlphaGo 的絕對勝利為標準,預測所有可行落子位置的結果再選擇最佳位置。因此對於 AlphaGo 是否有意識控制贏的子數的疑惑,DeepMind 研究團隊亦在賽後作出解釋。

DeepMind 的聯合創始人兼 CEO Demis Hassabis 表示,AlphaGo 的目標總是將獲勝機率最大化放於第一位,它會透過尋找確定的搜索途徑實現最低風險的獲勝機會。

DeepMind 研究科學家兼 AlphaGo 團隊負責人 David Silver

DeepMind 研究科學家兼 AlphaGo 團隊負責人 David Silver 補充,簡單而言,AlphaGo 會將獲勝機率盡量擴大,以求在對弈中取勝,而進一步擴大勝出的距離(子數)是未來需加強的地方。但目前而言,AlphaGo 的行為會傾向為了取勝而放棄贏得更多的子數,只為了降低不能取勝的風險,即使是很小的差距仍會納入考慮。(讀者可理解為面對「贏 3 子,90% 勝率」和「贏 1/4 子,95% 勝率」兩種情況,AlphaGo 傾向選擇後者來降低風險。)

 

DeepMind:強人工智能階段尚需數十年發展

Demis Hassabis 在演講中亦提到圍棋不像象棋等遊戲靠計算,而是靠直覺,AlphaGo 明顯已展示出其具備一定創造力,能在預測落子位置時擁有類似人類棋手的直覺。不過,他認為 AlphaGo 在經過不斷的強化學習訓練後,雖然可在圍棋這個領域實現類近的直覺,但始終於人類的自主意識有差別。

DeepMind 的聯合創始人兼 CEO Demis Hassabis

他續稱,DeepMind 在 AI 應用上仍處於早期探索階段,即使是在演講中提及的醫療、新型藥物研製等領域也只是行業中的其中一小部分。要發展到強人工智能階段,相信尚需數十年的發展。