谷歌人工智能獲得重大突破 MuZero算法無需告知規則自學成“棋”才

2020-12-31 13:55:00來源：科技日報

據最新一期《自然》雜志報道，DeepMind公司開發的一種人工智能(AI)算法MuZero，可以在不告知其游戲規則的情況下掌握圍棋、國際象棋、日本將棋和視頻游戲，這是谷歌人工智能部門獲得的又一重大突破。

DeepMind公司表示，研究人員多年來一直在尋找一種方法，既可以學習建立用于解釋當前環境的模型，也能夠利用這個模型來進行最好的決策。到目前為止，大多數方法都難以在Atari這種游戲中進行有效規劃。

MuZero最初在2019年推出，通過只關注環境中最重要的一個方面，來學習建立模型并解決問題。通過將這種方法與“阿爾法狗”強大的搜索樹技術相結合，MuZero的能力實現了重大飛躍。此外，MuZero還利用了前瞻搜索、基于模型的規劃來解決問題。

MuZero不會使用規則來找到最佳情況(因為事先不被告知)，而是學習考慮游戲環境的各個方面，自己觀察它是否重要。在數百萬場比賽中，它不僅學習規則，而且學習位置的通用價值、成功的通用策略以及事后評估自己行為的方式。后一種功能可幫助其從自身的錯誤中學習、回憶和重做游戲，以嘗試各種不同方法來進一步優化位置和策略價值。

MuZero不僅在國際象棋、圍棋和日本將棋上達到了與提供完善規則的“阿爾法狗”一樣的超人水平，在Atari游戲這樣的雜亂感知輸入環境中，也創造了新紀錄。研究人員將MuZero描述為“在追求通用算法方面邁出的重要一步”。

責任編輯：hnmd003