Topic: Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
Editor: George Wu
Resources: Nature paper DeepMind blog author blog Video pseudocode Github
Label: DeepMind, AlphaZero, Reinforcement Learning

大意
在2019年底DeepMind開發出新的算法MuZero並在今年十二月正式發表在Nature期刊. 在前代AlphaGo Zero及AlphaZero已經能透過自我對弈強化學習而擊敗國際象棋, 日本將棋, 圍棋等頂尖AI, 而MuZero更是能學習建立用於解釋目前環境系統的模型, 以及利用這個模型來進行最好的決策. 簡單的比喻就是不需要輸入圍棋的規則以及Domain knowledge, MuZero本身就會透過基於tree-based search及deep network自行學習圍棋的規則是甚麼,並且找到最佳的解法. 在paper中MuZero展示了在將棋, 西洋棋以及圍棋中跟AlphaZero一樣超越人類表現的結果, 且MuZero也能在Atari上57種遊戲達到目前為止最優的結果. 這代表強化學習算法能學習環境模型又能成功使用它找到最佳解法, 是通用人工智能算法上的重大進步.
Continue reading “MuZero: DeepMind新推出超越AlphaZero會自行學習遊戲規則並實現最佳策略選擇的算法”