MuZero: DeepMind新推出超越AlphaZero會自行學習遊戲規則並實現最佳策略選擇的算法

Topic: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Editor:  George Wu

Resources:  Nature paper    DeepMind blog    author blog    Video  pseudocode Github

Label: DeepMind, AlphaZero, Reinforcement Learning

大意

在2019年底DeepMind開發出新的算法MuZero並在今年十二月正式發表在Nature期刊. 在前代AlphaGo ZeroAlphaZero已經能透過自我對弈強化學習而擊敗國際象棋, 日本將棋, 圍棋等頂尖AI, 而MuZero更是能學習建立用於解釋目前環境系統的模型, 以及利用這個模型來進行最好的決策. 簡單的比喻就是不需要輸入圍棋的規則以及Domain knowledge, MuZero本身就會透過基於tree-based search及deep network自行學習圍棋的規則是甚麼,並且找到最佳的解法. 在paper中MuZero展示了在將棋, 西洋棋以及圍棋中跟AlphaZero一樣超越人類表現的結果, 且MuZero也能在Atari上57種遊戲達到目前為止最優的結果. 這代表強化學習算法能學習環境模型又能成功使用它找到最佳解法, 是通用人工智能算法上的重大進步.

Continue reading “MuZero: DeepMind新推出超越AlphaZero會自行學習遊戲規則並實現最佳策略選擇的算法”