科技

AI智慧更勝人類？不靠人類數據新版AlphaGo Zero超強

鉅亨網新聞中心2017-10-19 10:36

Google 旗下 DeepMind 開發出來的 AlphaGo，在人類圍棋界打遍天下無敵手，但最近卻遭到一位小老弟 100:0 的局數完虐。DeepMind 在《Nature》發表最近論文，介紹最新版的 AlphaGo Zero，純粹靠強化學習，就成為最強的棋士。

原先舊版 AlphaGo 開發時，先靠人類千年的智慧奠基，由過去的棋譜強化學習運算，算是綜合各家招數後自成一派。但是最新版的 AlphaGo Zero，研究人員只提供遊戲的規則，在不依賴人類數據之下自學，結果「無招勝有招」，表現更勝前代 AlphaGo。

‌

DeepMind 作者群在論文中寫道，AlphaGo Zero 證明了即使在最具挑戰的領域，純強化學習的方法也是完全可行的－完全不需要人類提供範例或指導，不提供基本規則以外的任何領域知識，使用強化學習就能夠超越人類的水準。

此外，純強化學習方法只花費額外很少的訓練時間，相較於使用人類數據，實現了更好的漸進性能（asymptotic performance）。

在很多情況下，人類數據，特別是專家數據，往往太過昂貴，或者根本無法取得。因此，作者認為，如果類似的技術可以應用到其他問題上，這些突破就有可能對社會產生積極的影響。

DeepMind 在論文中指出，在進行了 3 天的自我訓練後，AlphaGo Zero 在 100 局比賽中以 100：0 擊敗了上一版本的 AlphaGo，也就是打敗南韓九段棋士李世乭的版本。之後，再經 40 天的自我訓練後，AlphaGo Zero 變得更加強大，超越了「Master」版本的 AlphaGo－完勝柯潔的版本。