Google 透過經典遊戲 Pong 訓練人工智能作出選擇

遊戲向來都是開發者喜歡用來進行深度強化學習，訓練人工智能的工具，從棋類到複雜的戰略遊戲都有。不過 Google 最近採用的學習方式，卻是使用經典的乒乓遊戲 Pong 來讓人工智能作訓練用。

Google 最近公開的論文《Atari 模式為本強化學習》（Model-Based Reinforcement Learning for Atari）中，就提到了一個稱為 SimPLe 的模擬策略學習算法，使用遊戲模式來學習選擇行為的策略。科學家表示，總括而言 SimPLe 是要交替學習遊戲行為的世界模型，以及使用該模型在模擬遊戲環境中改善策略（無模型強化學習）。該算法背後的基本原理已經確立好，並且已經應用在最近不少基於模型的強化學習方法中。

Google 使用了 Pong 和 Freeway 兩個簡單的遊戲，在等於 2 小時遊戲時間的實驗中，採用 SimPLe 策略的代理成功達到最高分數，雖然其最終表現仍未達到標準的強化學習方式，但其訓練效率可以提升一倍，未來可以在進一步提升準確度，以節省人工智能的訓練所需時間，以及模擬互動的成本。

來源：Venture Beat