遊戲向來都是開發者喜歡用來進行深度強化學習,訓練人工智能的工具,從棋類到複雜的戰略遊戲都有。不過 Google 最近採用的學習方式,卻是使用經典的乒乓遊戲 Pong 來讓人工智能作訓練用。
Google 最近公開的論文《Atari 模式為本強化學習》(Model-Based Reinforcement Learning for Atari)中,就提到了一個稱為 SimPLe 的模擬策略學習算法,使用遊戲模式來學習選擇行為的策略。科學家表示,總括而言 SimPLe 是要交替學習遊戲行為的世界模型,以及使用該模型在模擬遊戲環境中改善策略(無模型強化學習)。該算法背後的基本原理已經確立好,並且已經應用在最近不少基於模型的強化學習方法中。
Google 使用了 Pong 和 Freeway 兩個簡單的遊戲,在等於 2 小時遊戲時間的實驗中,採用 SimPLe 策略的代理成功達到最高分數,雖然其最終表現仍未達到標準的強化學習方式,但其訓練效率可以提升一倍,未來可以在進一步提升準確度,以節省人工智能的訓練所需時間,以及模擬互動的成本。
來源:Venture Beat