menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

時事

王小川:“心機婊”谷歌在下一盤很大棋

鉅亨網新聞中心 2016-03-10 08:16


新浪科技訊 3月9日下午消息,人機圍棋對決今日正式打響,在新浪科技的比賽直播中,作為人工智能領域的一專家,搜狗公司CEO王小川應邀為網友帶來了比賽分析,並就比賽中AlphaGo做了技術原理方面的生動分析。

作為機器學習和技術的堅定支持者,王小川對比賽的分析沒有局限於AlphaGo本身,而是放眼到了賽場內外,並站在行業當前狀態、技術進展和未來趨勢等角度為網友做了多維度講解。


有趣的是,王小川還給網友分析了為什麼這次谷歌是在下一盤很大的棋,其“心機婊”表現在哪些方面?對於首場落敗的李世石,王小川又有什麼關於機器學習角度的建議?一起來回顧一下王小川在人機圍棋對決中的經常分析。(李根)

談比賽:心機婊谷歌

第一,谷歌找樊輝的時候,他找了一個職業棋手至少是一個洲的冠軍,但其實段位相對比較低,這樣他能夠在裏面得到一個取勝,但是出去是很大的影響力。

另外還有一個設定,谷歌和樊麾簽了保密協議,直到《Nature》封面文章發表前,谷歌都沒有對外宣佈已經戰勝了樊麾,戰勝歐洲冠軍和文章發表是相互配合的。

最后等到《Nature》封面文章一發表,立刻起到了引爆的作用。

所以谷歌在做這件事情的時候,不僅在做技術研究的問題,還深刻考慮了背后選什麼人,怎樣實現媒體影響力。

我推斷在這種考慮下,谷歌對於這次挑戰李世石也做了充分的准備,是一個圍棋選手在縝密的思考全盤的事情,而不是莽撞地做這個比賽,后來也了解到了谷歌在技術之外的整個動作,我認為它的技術會增大。

談技術一:AlphaGo背后原理

具體來,AlphaGo的內存裏已經不用存一個一個的棋譜了。它的棋譜都變成網絡參數了,就好像把所有武功招術變成一套參數,給你一個新的棋譜之后,大概經過13層網絡迭代,得到一堆數,每個地方下的概率有多大,只要給他一個棋盤當前的佈局,他正在做的這個,每個點下一步的概率有多大就知道了。

它在訓練的時候很慢,訓練的時候,我們知道當下棋譜下最有可能走哪個走,系統整體上能夠為所有的棋譜做優化,使系統在原有的採集到的數據上盡可能地模仿這樣一個行為。所以訓練的時候是慢的,他需要不斷的調整參數,需要怎麼樣的網絡疊加出這樣一個值來,實際下的時候會變得快很多。

它其實最終是變成一個函數,輸出一個19×19維的這樣一個函數,就是輸入是一個棋盤,輸出是函數,過程中沒有搜索或查找過程。

我對圍棋不懂,但我的理解是,人有幾種思考的方式,一種方式是搜索,搜索就是計算的時候我這麼搜他這麼搜,我把下面的可能性展開,這是中間的一種思考的方式。

第二種方式就是我的一種直覺,我可能看多很多棋,對整體對局部的行狀,我會有我的判斷。

第三種方式是推理,走幾步去數一下幾口氣。深入學習到今天,以前的計算機是搜索,基礎的計算,對推理、直覺是沒有的,今天深度學習已經解決了第二個問題,能夠有直覺,在一個行狀下的時候可以感悟怎麼走會更好,當天的局勢是否是最優的狀態,把搜索、知覺這兩個都掌握了,現在還沒有推理的能力。

深度學習裏不是簡單地比對以前的棋,而是把以前見過的所有棋的局面,這個局面好不好,都融匯貫通變成他不清道不明的知識。以后他看到這個棋,不管是整體還是局部的,他都能分析出一個結果來。

我之前做過研究,機器做的方法和人是很像的,局部找出人和機器的不同點,算法層面上是分不開的。這種情況下機器跟人用了很類似的思考方式在進行。

談技術二:AlphaGo的程序語言可能以C語言為主

一般大類上會分成機器原理分成三個類別,一種最基礎是C語言,因為其靈活性最高,計算起來也能夠快,也能構建最基層算法。

網上有兩種,一種是用快速搭建一些應用,比如我們現在要去做一個網站的時候,前面用Z既有一些邏輯也可以做成性價比,在性能合理的快速裏面,寫程序快速裏面找到一個平衡。

還有一個就是腳本語言,就是每個指令本身的性能會很慢,但是寫起來會最方便,就像類似的腳本語言,我認為這個事,這個會以C語言為多,可以再查一下具體的資料。

談科技:先做圍棋程序的Facebook為何讓谷歌搶了先?

Facebook也在做下棋這個事情,但是整體來看,他們整體上還是一個團隊在玩的心態。

他們是更早做這個事情的,但是隨便有一些進展就跑到類似知乎一樣的地方發帖講我是怎麼做的。你看谷歌是嚴格的保密,雙方的心態是完全不一樣的。

我在想如果搜狗的團隊去做這個事,就一定要先建立起一個強大的氣場,一個必勝的氣場,但遺憾的是我們的工程師還沒有達到這樣的高度。

第二,這個事情你需要大量的計算資源,谷歌在這次裏面,大概動用了應該是上萬台的機器節點。這次對外宣稱有2000個CPU,在這樣計算資源的時候,已經比當年深藍計算機提升了3萬倍。也是當年頂級的計算機,咱們講的這個國內的天河2號,是它的計算機的十分之一,天河計算力的3的30萬,它是3萬倍,所以它的這樣計算資源的時候也是需要有足夠的儲備。

談未來:谷歌AI技術的其他領域應用

從AlphaGo最大的目的,他們的團隊認為不僅是用來下棋,可以用來玩游戲、醫藥研發、自動寫程序寫代碼,他認為這套程序是可以全面鋪開的。這篇文章中講到的算法不僅是下圍棋,它的方向是只要是對兩方博弈的不確定性的棋盤游戲,它都能夠同樣適用,《Nature》看到了這一點。

談威脅:人工智能的現狀和威脅

第一,人工智能現在還不能完成自我的進化,現在深度學習的方法只是對已知的數據去重覆,泛化它,其實解決的還是已經有的問題。

只是可能做得更好,但不能創造新的問題,它還沒有創造力,所以它不會懂得推理和麵對新的問題。

人工智能,即便下棋把人贏了,但能夠解決的問題還是非常有限的,只是取代重覆性的腦力勞動。

擔心人工智能對人類有威脅?現在還不到時候,主要判斷標準是:

要看機器是否有意識。我最大的擔心是軍用機器人,如果讓軍用機器人的目標不僅是殺敵還要存在下去,如果設置存在下去,有可能發現他的主人是他的障礙,比如主人會怎麼把我的電源拔了,他可能會生這種能力。

如果機器足夠聰明的話還要看它的目的是怎麼設定的,現在兩個,第一機器沒有目的,第二不夠聰明。

機器贏了不可怕,如果機器開始假裝輸給你,那就可怕了,他用其他的意圖來隱藏自己。

談影響:如果AlphaGo接下來完勝李世石,接下來會怎麼樣?

如果AlphaGo贏了之后就會立刻解散不玩了,因為你要放一個團隊在那兒,總有人挑戰你,你贏了沒有意義,輸了就掛掉了。

所以Alphago也好,谷歌也好,這一次更大的意義在於它的實力展示,它就是想告訴大家我很牛。

另外,這次比賽對於做深度學習和做算法,在整個歷史裏會扛起更多的責任,在人類文明裏,機器會扮演越來越重要的作用,代表這樣的力量,人應該更多思考自己的意義。

談建議:以人工智能的角度對李世石的建議

谷歌對這次比賽做了高度的保密,以往下棋風格怎麼變化都沒有公開,所以李世石學習AlphaGo的難度非常高。實際上這麼做也是刻舟求劍,計算機的變化有可能超出你的預期。

反過來錯誤的地方,如果他去理解計算機怎麼想,機器會怎麼做,有可能你的判斷是錯的,對計算機的理解不到位,反而機器不擅長引入複雜局或者做某種特定情況的搜索,可能會掉到一個陷阱裏去。

以我對AlphaGo的判斷,他們並不會對李世石做特別的判斷,他需要大量的棋局樣本去做,要拿三千萬的棋局做訓練,拿到李世石的棋局可能就是一千多盤,這樣的數據規模是遠遠沒法支撐AlphaGo的模型去支撐,如果他用李世石做訓練,他也會掉到一個陷阱裏去。

今天最好的狀況是雙方都有一顆平常心,AlphaGo也別講李世石怎麼樣,就是提高他的棋藝,李世石也不要管AlphaGo的套路,盡力去下自己的棋。

電腦每秒鐘的速度比以前AlphaGo的速度快了三萬倍,以這個速度不斷自我訓練,同時開發兩個腦左右互搏,不斷地自己跟自己練。

自己跟自己下輸的時候就馬上總結教訓,這個地方輸掉了,拿棋局怎麼去做改進,自己當自己的老師,這樣的方法能提升得非常快,也是在封閉的棋類游戲中機器迅速戰勝人的精髓所在。

文章標籤


Empty