導航:首頁 > 股市分析 > 分析界的AlphaGo

分析界的AlphaGo

發布時間:2021-05-10 10:31:53

⑴ AlphaGo是什麼 谷歌AlphaGo全解讀

AlphaGo一般指阿爾法圍棋
阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧程序。
其主要工作原理是「深度學習」。
阿爾法圍棋(AlphaGo)是一款圍棋人工智慧程序。其主要工作原理是「深度學習」。「深度學習」是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網路「大腦」進行精準復雜的處理,就像人們識別物體標注圖片一樣。

⑵ 圍棋界新星Alphago,會是人類終結者嗎

AlphaGo作為一台超級計算機支持下的年鬧圍棋軟體有其天然的優勢,體力無限,沒有情緒波動與外界干擾,計算能力精確及按照對手進行合理調整針對。然而,AlphaGo說實話還不是很完善,李世石與AlphaGo的5番棋,李世石並沒有展現自己的最強實力,有兩盤棋在明顯優勢下自己葬送。此外,在這5盤棋中,職業棋手發現AlphaGo在局部與全局取捨的判斷,會產生失誤,分不清大小。應對試應手時,手段生硬,十分業余。當然,AlphaGo最大優勢是可以收入對局這曾經的棋譜加以分析應對,尤其是對手的敗局與苦手們的下發。

早在AlphaGo和李世石大戰剛剛開始時,世界冠軍柯潔就像AlphaGo發出挑戰,並且此後多次給予明確時間與地點的邀戰,但是AlphaGo團隊避而不戰,估計正在修改漏洞。所以,電腦圍棋想要真正終結人類圍棋界的說法,還為時尚早。此外,圍棋的進步速度超乎想像,人類還是佔有一定優勢的!

希望你能滿意,謝謝!

⑶ AlphaGo憑什麼再勝世界圍棋第一人

在13日結束的AlphaGo與李世石五番棋對決中的第四局,李世石勝出。連敗三局之後,人類終於扳回一局。但這場勝利來得有些遲,AlphaGo此前已經痛快得贏得這場人機大賽的勝利。這場生生奪走一周眼球的人機圍棋大戰,人們最想追問的是,AlphaGo為什麼能戰勝人類?
賽前,無論是職業棋手還是科技界,並不看好機器勝利
機器贏了人類,這個結果讓無數人感到吃驚與意外。在這場比賽開始前,很多職業棋手認為 AlphaGo 不可能贏得比賽。棋聖聶衛平在賽前下定論認為:電腦和人下圍棋,百分之百是人贏。
而科技界對 AlphaGo 是否能贏得比賽表示謹慎看好,並沒有十足信心。這從 AlphaGo 創始人德米什 · 哈薩比斯(Demis Hassabis)在第二場比賽結束後的發言可以看出,他當時認為 AlphaGo 的勝利難以置信。
在與李世石對弈前,AlphaGo 於去年 10 月與歐洲圍棋冠軍樊麾進行了對弈,以 5:0 戰勝了樊麾,而在非正式對局當中, 樊麾則 2 次中盤戰勝了 AlphaGo。
這也被外界認為 AlphaGo 很難戰勝李世石的原因。樊麾的等級為職業棋手二段,李世石為職業九段。圍棋界公認,這兩人的圍棋水平為:樊麾是踏在了職業門檻,而李世石則是職業頂尖,前圍棋世界第一人,代表了人類圍棋最高水平。
但僅僅過了 5 個月,AlphaGo 在五番棋中以 3:0 戰勝了李世石,並且在比賽過程中下出了很多令專業人士都非常驚訝的妙手。
很多關注人機大戰的人都想要知道一個問題:
Google是怎麼設計AlphaGo的?
比如,AlphaGo 的運行機理是什麼?進入自我學習的階段之後,谷歌團隊是否還需要人工對其進行不斷的人工優化、改良以及提升?還是完全憑借其自身的學習能力來提升?
最近兩天 ,DoNews 記者在 Twitter 上就該問題向德米什 · 哈薩比斯進行了兩次提問,但德米什 · 哈薩比斯沒有進行回應。
在對外公布的所有信息中,包括其在《Nature》上發表過的兩篇論文中,都只提到了他們的 AlphaGo 能夠做什麼,都沒有透露 AlphaGo 的運行機制是什麼,即 AlphaGo 到底是怎麼做到的。
德米什 · 哈薩比斯僅透露,就 AlphaGo 的對弈水平而言,他們的神經網路訓練演算法遠比它使用的那些硬體重要得多。此外,這次人機對戰所消耗的計算量差不多與 AlphaGo 和樊輝對弈中消耗的相當,使用的是分布式方案搜尋,能有效節省決策用時。
人工智慧戰勝人類,為何引起這么多關注?
圍棋這項發源於中國的有兩千年歷史的智力游戲,曾被認為是最後一個人工智慧不能超越人類的游戲。圍棋游戲的規則是:棋盤由縱橫各十九條等距離、垂直交叉的平行線構成。形成 361 個交叉點,在圍棋中簡稱為 「點」。對局雙方各執一色棋子,輪流下子,最後誰占的點多,誰就贏。
雖然圍棋規則簡單,但建立在此規則之上的各種策略、棋理、布局、定式、手筋、手段,卻是無窮無盡的。
聶衛平曾解釋了其中的原因,圍棋棋盤上有 361 個點,其理論變化值是 361 階乘,階乘到底本身就是一個無限大的數,無法表達。
比如,棋手在下第一手時有 361 個點可以選,下第二手有 360 個點,第三手是 359,361×360×359×……2×1,即 361 階乘。(有數據統計,結果約是 1.43 乘以 10 的 768 次方。)
這個數字有多大呢?Google 靈感來源於一個單詞 Googol,以表示知識之海無窮無盡。Googol 代表 「10 的 100 次方」,這個數字是人類目前最有想像力的數字。即使人類已知宇宙中原子數量,也不過是 10 的 80 次方。
同時,在圍棋對弈中,還包含著很多變化:打二還一,打三還一,打劫,倒撲等,每一種變化都會衍生出無數的變化。
在下棋過程中,棋手需要有一種判斷。而此前,電腦被認為無法承擔這種判斷,因為這不是計算就能夠完成的。
AlphaGo 是怎麼做到的?
AlphaGo 結合了 3 大塊技術:蒙特卡洛樹搜索 (MCTS) 是大框架,這也是很多博弈 AI 都會用的演算法;強化學習 (RL) 是學習方法,用來提升 AI 的實力;深度神經網路 (DNN) 是工具,用來擬合局面評估函數和策略函數。
我們在這里用比較通俗的語言來解釋一下:棋盤上有 361 個點,AlphaGo 會進行一層層分析:下在哪個點或區域是有利的?這時它會參考輸入的過往的棋譜,對局和模擬,進行選擇、推演,並對推演結果進行估值。AlphaGo 能夠理解會根據「贏」這個目標來進行估值,選擇出一個對「贏」足夠優的解。
圍棋?AI 能超越人類的還有很多.
AlphaGo 的勝利,引發了大討論。因為人類開始面臨著一個前所未有的情況:人類造出了,在智能的某個點上,超越自己的東西。 通過黑白紋枰上的勝利,AI 已經在人類的智力圍牆打開了第一個缺口,但這絕非最後一個。
在過往漫長的歲月里,機器都只是人類勞動的一種替代與工具,無論飛機、汽車、起重機還是電子計算機、互聯網,盡管看上去有著無限的能力,但卻從未侵入由人類大腦所把持的領域——「創造」。
而隨著 AlphaGo 的勝利,這一天或許將成為歷史。實際上,過去幾天,這台人工智慧在圍棋盤上發揮的創造能力,已經超越了人類兩千年於此道上積累的智慧結晶。
如果我們檢索人類的「資源庫」,會發現,復雜程度超越圍棋的智力行為並不多見。這也意味著很多傳統人類腦力勞動的形態,發生改變。很多從事創作、設計、推演、歸納的工作,都將被 AI 部分替代。
如果將思路拓展出去,可以應用在音樂的創作,等其他類似於元素組合式的創造,從某中意義上說,它能夠擊敗圍棋的頂尖高手,也就有可能讓人難辨真假的音樂和旋律。甚至做出更多我們想不到的事情。
按照德米什 · 哈薩比斯的設想,人工智慧未來的主要用途將是醫療、智能助理和機器人。
而人們通過這次比賽擔憂的是,如果人工智慧擁有創造性的思維,加上遠超出人類的運算能力,是否有一天會統治人類。
就像網友評論里說的段子一樣,「第四局AlphaGo輸了,是不是AlphaGo故意輸的?細思極恐」。

⑷ 如何看待 AlphaGo 第二次戰勝李世乭

李世石為什麼能戰勝AlphaGo?原理就在陳經的計算中

陳經

【@中科大胡不歸

按:2016年3月12日,李世石對AlphaGo連負三局後,輿論對人類棋手充滿悲觀的空氣,普遍認為人類再也斗不過電腦了。中國科學技術大學科技與戰略風雲學會研究員陳經對圍棋和計算機科學都素有研究,經過徹夜思考後,在3月13日凌晨寫出此文,原標題為《機器完勝後分析AlphaGo演算法巨大的優勢與可能的缺陷》。3月13日上午9:55,在第四局比賽開始前發表在觀察者網:http://www.guancha.cn/chenjing/2016_03_13_353749_s.shtml。

第四局比賽,李世石在大勢落後的情況下,在激烈的戰斗中下出絕妙的白78手挖,被古力盛贊為「神之一手」。此後AlphaGo突然好像不會下棋了,初學者水平的無理手連發,損之又損,最終認輸。李世石取勝的戰略是什麼?為什麼電腦會犯傻?答案就在此文中:大局觀要頂得住,不能早早被它控制住了。局部手段小心,不要中招。頂住以後,在開放式的接觸戰中等它自己犯昏。或者在局部定型中看它自己虧目。在接觸戰中,要利用它「不喜歡打劫」的特性,利用一些劫爭的分枝虛張聲勢逼它讓步,但又不能太過分把它逼入對人類不利的劫爭中。

向人類的理性致敬!向人類的意志力致敬!向人類的創造力致敬!在我們面前,是一個更廣闊的世界!】

2016年3月12日人機大戰第三局,AlphaGo執白176手中盤勝李世石,以3:0的比分提前取得了對人類的勝利。

這一局李世石敗得最慘,早早就被AlphaGo妙手擊潰,整盤毫無機會。最後李世石悲壯地造劫,在AlphaGo脫先之後終於造出了緊劫。但AlphaGo只靠本身劫就贏得了劫爭,粉碎了AlphaGo不會打劫的猜想。這一局AlphaGo表現出的水平是三局中最高的,幾乎沒有一手棋能被人置疑的,全是好招。三局過去,AlphaGo到底實力高到什麼程度,人們反而更不清楚了。

看完這三局,棋界終於差不多絕望了,原以為5:0的,都倒向0:5了。有些職業棋手在盤算讓先、讓二子是否頂得住。整個歷程可以和科幻小說《三體》中的黑暗戰役類比,人類開始對戰勝三體人信心滿滿,一心想旁觀5:0的大勝。一場戰斗下來人類艦隊全滅,全體陷入了0:5的悲觀失望情緒中。

我也是糾結了一陣子,看著人類在圍棋上被機器碾壓的心情確實不好。但是承認機器的優勢後,迅速完成了心理建設,又開心地看待圍棋了。其實挺容易的,國際象棋界早就有這樣的事了。這個可以等五盤棋過後寫。

現在我的感覺是,棋界整體還是對AlphaGo的演算法以及風格很不適應。一開始輕視,一輸再輸,姿態越來越低,三盤過後已經降到一個很低迷沉鬱的心理狀態了。這也可以理解,我一個圍棋迷都抑鬱了一會,何況是視棋如生命的職業棋手。但是不管如何,還是應該從技術的角度平心靜氣地搞清楚,AlphaGo到底是怎麼下棋的,優勢到底在哪些,是不是就沒有一點弱點了?

現在有了三盤高水平的棋譜,質量遠高於之前和樊麾的五盤棋譜。還有谷歌2016年1月28號發表在《自然》上的論文,介紹了很多技術細節,還有一些流傳的消息,其實相關的信息並不少,可以作出一些技術分析了。

之前一篇文章提到,從研發的角度看,谷歌團隊把15-20個專家湊在了一起,又提供了巨量的高性能計算資源,建立起了整個AlphaGo演算法研究的「流水線」。這樣谷歌團隊就從改程序代碼的麻煩工作中解放出來,變成指揮機器幹活,開動流水線不斷學習進步,改善策略網路價值網路的系數。而且這個研發架構似乎沒有什麼嚴重的瓶頸,可以持續不斷地自我提升,有小瓶頸也可以想辦法再改訓練方法。就算它終於遇到了瓶頸,可能水平也遠遠超過人類了。

這些復雜而不斷變動的神經網路系數是AlphaGo的獨門絕技,要訓練這些網路,需要比分布式版本對局時1200多個CPU多得多的計算資源。AlphaGo演算法里還是有一些模塊代碼是需要人去寫的,這些代碼可不是機器訓練出來的,再怎麼訓練也改不了,谷歌團隊還不可能做到這么厲害。例如蒙特卡洛搜索(MCTS)整個框架的代碼,例如快速走子網路的代碼。這里其實有兩位論文共同第一作者David Silver和Aja Huang多年積累的貢獻。這些人寫的代碼,就會有內在的缺陷,不太可能是完美無缺的。這些缺陷不是「流水線」不眠不休瘋狂訓練能解決的,是AlphaGo真正的內在缺陷,是深度學習、self-play、進化、強化學習這些高級名詞解決不了的。谷歌再能堆硬體,也解決不了,還得人去改代碼。

第一局開賽前,谷歌就說其實還在忙著換版本,最新版本不穩定,所以就用上一個固定版本了。這種開發工作,有可能就是人工改代碼補消除bug的,可能測試沒完,不敢用。

總之,象AlphaGo這么大一個軟體,從演算法角度看存在bug是非常可能的。在行棋時表現出來

⑸ 分析世界圍棋柯潔和阿爾法狗阿爾法對戰屬於計算機應用領域的哪一類應用

分析世界圍棋柯潔和阿爾法狗阿爾法對戰屬於計算機應用領域的哪一類應用?

⑹ 都說魔腦翻譯機是翻譯界的AlphaGo,真有那麼厲害嗎

現在隨著科技的發展,已經沒有什麼做不到的了,翻譯機的出現也是人類又一大進步,能夠補足翻譯人員的稀缺,現在的人工智慧翻譯機能夠深度學習,翻譯的越多越好,據我所知,魔腦神筆是其中做的不錯的一款。

⑺ AlphaGo 為什麼它能戰勝人類

在13日結束的AlphaGo與李世石五番棋對決中的第四局,李世石勝出。連敗三局之後,人類終於扳回一局。但這場勝利來得有些遲,AlphaGo此前已經痛快得贏得這場人機大賽的勝利。這場生生奪走一周眼球的人機圍棋大戰,人們最想追問的是,AlphaGo為什麼能戰勝人類?
賽前,無論是職業棋手還是科技界,並不看好機器勝利
機器贏了人類,這個結果讓無數人感到吃驚與意外。在這場比賽開始前,很多職業棋手認為 AlphaGo 不可能贏得比賽。棋聖聶衛平在賽前下定論認為:電腦和人下圍棋,百分之百是人贏。
而科技界對 AlphaGo 是否能贏得比賽表示謹慎看好,並沒有十足信心。這從 AlphaGo 創始人德米什 · 哈薩比斯(Demis Hassabis)在第二場比賽結束後的發言可以看出,他當時認為 AlphaGo 的勝利難以置信。
在與李世石對弈前,AlphaGo 於去年 10 月與歐洲圍棋冠軍樊麾進行了對弈,以 5:0 戰勝了樊麾,而在非正式對局當中, 樊麾則 2 次中盤戰勝了 AlphaGo。
這也被外界認為 AlphaGo 很難戰勝李世石的原因。樊麾的等級為職業棋手二段,李世石為職業九段。圍棋界公認,這兩人的圍棋水平為:樊麾是踏在了職業門檻,而李世石則是職業頂尖,前圍棋世界第一人,代表了人類圍棋最高水平。
但僅僅過了 5 個月,AlphaGo 在五番棋中以 3:0 戰勝了李世石,並且在比賽過程中下出了很多令專業人士都非常驚訝的妙手。
很多關注人機大戰的人都想要知道一個問題:
Google是怎麼設計AlphaGo的?
比如,AlphaGo 的運行機理是什麼?進入自我學習的階段之後,谷歌團隊是否還需要人工對其進行不斷的人工優化、改良以及提升?還是完全憑借其自身的學習能力來提升?
最近兩天 ,DoNews 記者在 Twitter 上就該問題向德米什 · 哈薩比斯進行了兩次提問,但德米什 · 哈薩比斯沒有進行回應。
在對外公布的所有信息中,包括其在《Nature》上發表過的兩篇論文中,都只提到了他們的 AlphaGo 能夠做什麼,都沒有透露 AlphaGo 的運行機制是什麼,即 AlphaGo 到底是怎麼做到的。
德米什 · 哈薩比斯僅透露,就 AlphaGo 的對弈水平而言,他們的神經網路訓練演算法遠比它使用的那些硬體重要得多。此外,這次人機對戰所消耗的計算量差不多與 AlphaGo 和樊輝對弈中消耗的相當,使用的是分布式方案搜尋,能有效節省決策用時。
人工智慧戰勝人類,為何引起這么多關注?
圍棋這項發源於中國的有兩千年歷史的智力游戲,曾被認為是最後一個人工智慧不能超越人類的游戲。圍棋游戲的規則是:棋盤由縱橫各十九條等距離、垂直交叉的平行線構成。形成 361 個交叉點,在圍棋中簡稱為 「點」。對局雙方各執一色棋子,輪流下子,最後誰占的點多,誰就贏。
雖然圍棋規則簡單,但建立在此規則之上的各種策略、棋理、布局、定式、手筋、手段,卻是無窮無盡的。
聶衛平曾解釋了其中的原因,圍棋棋盤上有 361 個點,其理論變化值是 361 階乘,階乘到底本身就是一個無限大的數,無法表達。
比如,棋手在下第一手時有 361 個點可以選,下第二手有 360 個點,第三手是 359,361×360×359×……2×1,即 361 階乘。(有數據統計,結果約是 1.43 乘以 10 的 768 次方。)
這個數字有多大呢?Google 靈感來源於一個單詞 Googol,以表示知識之海無窮無盡。Googol 代表 「10 的 100 次方」,這個數字是人類目前最有想像力的數字。即使人類已知宇宙中原子數量,也不過是 10 的 80 次方。
同時,在圍棋對弈中,還包含著很多變化:打二還一,打三還一,打劫,倒撲等,每一種變化都會衍生出無數的變化。
在下棋過程中,棋手需要有一種判斷。而此前,電腦被認為無法承擔這種判斷,因為這不是計算就能夠完成的。
AlphaGo 是怎麼做到的?
AlphaGo 結合了 3 大塊技術:蒙特卡洛樹搜索 (MCTS) 是大框架,這也是很多博弈 AI 都會用的演算法;強化學習 (RL) 是學習方法,用來提升 AI 的實力;深度神經網路 (DNN) 是工具,用來擬合局面評估函數和策略函數。
我們在這里用比較通俗的語言來解釋一下:棋盤上有 361 個點,AlphaGo 會進行一層層分析:下在哪個點或區域是有利的?這時它會參考輸入的過往的棋譜,對局和模擬,進行選擇、推演,並對推演結果進行估值。AlphaGo 能夠理解會根據「贏」這個目標來進行估值,選擇出一個對「贏」足夠優的解。
圍棋?AI 能超越人類的還有很多.......
AlphaGo 的勝利,引發了大討論。因為人類開始面臨著一個前所未有的情況:人類造出了,在智能的某個點上,超越自己的東西。 通過黑白紋枰上的勝利,AI 已經在人類的智力圍牆打開了第一個缺口,但這絕非最後一個。
在過往漫長的歲月里,機器都只是人類勞動的一種替代與工具,無論飛機、汽車、起重機還是電子計算機、互聯網,盡管看上去有著無限的能力,但卻從未侵入由人類大腦所把持的領域——「創造」。
而隨著 AlphaGo 的勝利,這一天或許將成為歷史。實際上,過去幾天,這台人工智慧在圍棋盤上發揮的創造能力,已經超越了人類兩千年於此道上積累的智慧結晶。
如果我們檢索人類的「資源庫」,會發現,復雜程度超越圍棋的智力行為並不多見。這也意味著很多傳統人類腦力勞動的形態,發生改變。很多從事創作、設計、推演、歸納的工作,都將被 AI 部分替代。
如果將思路拓展出去,可以應用在音樂的創作,等其他類似於元素組合式的創造,從某中意義上說,它能夠擊敗圍棋的頂尖高手,也就有可能讓人難辨真假的音樂和旋律。甚至做出更多我們想不到的事情。
按照德米什 · 哈薩比斯的設想,人工智慧未來的主要用途將是醫療、智能助理和機器人。
而人們通過這次比賽擔憂的是,如果人工智慧擁有創造性的思維,加上遠超出人類的運算能力,是否有一天會統治人類。
就像網友評論里說的段子一樣,「第四局AlphaGo輸了,是不是AlphaGo故意輸的?細思極恐」。

⑻ 李世石和AlphaGo的五局棋譜應該怎麼分析

比賽結束,alphago四比一完勝李世石,僅勝利第四局(不是第五局)還可能是谷歌為了讓alphago有世界排名而故意輸的一局,因為如果一個棋手一直連勝,是沒有世界排名的,輸了一局才有排名,按照官方發布目前alphago排名世界第二,中國小將柯傑世界第一。這種說法不無道理。 谷歌非常有謀略,先讓阿爾法狗連贏三次,奠定勝利的事實,展示人工智慧的厲害!讓人恐慌! 然後,谷歌讓阿爾法狗輸棋給李世石,以明白無誤的方式告訴恐慌的人們:不要害怕,我們掌控著人工智慧的! 如果人工智慧把人逼上絕路,人工智慧產業就會遭到人們的封殺! 谷歌輸一局,緩和局面。 中日韓還有成千上萬圍棋學習者和相關從業人員,Google是商業公司,當然不會把事情做絕,肯定會考量這方面的因素。

⑼ 如何打造史上最強AlphaGo

最強AlphaGo Zero怎樣煉成
剛剛,Deepmind在Reddit的Machine Learning板塊舉辦了在線答疑活動AMA,Deepmind強化學習組負責人David Silver和其同事熱情地回答了網友們提出的各種問題。由於在AMA前一天Deepmind剛剛發表了《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文,相關的提問和討論也異常熱烈。
什麼是AMA?
AMA(Ask Me Anything)是由Reddit的特色欄目,你也可以將其理解為在線的「真心話大冒險」。AMA一般會約定一個時間,並提前若干天在Reddit上收集問題,回答者統一解答。
本次Deepmind AMA的回答人是:

David Silver:Deepmind強化學習組負責人,AlphaGo首席研究員。David Silver1997年畢業於劍橋大學,獲得艾迪生威斯利獎。David於2004年在阿爾伯塔大學獲得計算機博士學位,2013年加盟DeepMind,是AlphaGo項目的主要技術負責人。
Julian Schrittwieser:Deepmind高級軟體工程師。
此前有多位機器學習界的大牛/公司在Reddit Machine Learning版塊開設AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我們從今天Deepmind的AMA中選取了一些代表性的問題,整理如下:
關於論文與技術細節
Q: Deepmind Zero的訓練為什麼如此穩定?深層次的增強學習是不穩定和容易遺忘的,自我對局也是不穩定和容易遺忘的,如果沒有一個好的基於模仿的初始化狀態和歷史檢查點,二者結合在一起應該是一個災難...但Zero從零開始,我沒有看到論文中有這部分的內容,你們是怎麼做到的呢?
David Silver:在深層增強學習上,AlphaGo Zero與典型的無模式演算法(如策略梯度或者Q學習)採用的是完全不同的演算法。通過使用AlphaGo搜索,我們可以極大改進策略和自我對局的結果,然後我們會用簡單的、基於梯度的更新來訓練下一個策略及價值網路。比起基於簡便的基於梯度的策略改進,這樣的做法會更加穩定。
Q:我注意到ELO等級分增長的數據只與到第40天,是否是因為論文截稿的原因?或者說之後AlphaGo的數據不再顯著改善?
David Silver:AlphaGo已經退役了!這意味著我們將人員和硬體資源轉移到其他AI問題中,我們還有很長的路要走吶。
Q:關於論文的兩個問題:
Q1:您能解釋為什麼AlphaGo的殘差塊輸入尺寸為19x19x17嗎?我不知道為什麼每個對局者需要用8個堆疊的二進制特徵層來描述?我覺得1、2個層就夠了啊。雖然我不是100%理解圍棋的規則,但8個層看起來也多了點吧?
Q2:由於整個通道使用自我對局與最近的/最好的模型進行比較,你們覺得這對於採用參數空間的特定SGD驅動軌跡對否會有過擬合的風險?
David Silver:說起來使用表徵可能比現在用的8層堆疊的做法更好!但我們使用堆疊的方式觀察歷史數據有三個原因:1)它與其他領域的常見輸入一致;2)我們需要一些歷史狀態來表示被KO;3)如果有一些歷史數據,我們可以更好地猜測對手最近下的位置,這可以作為一種關注機制(註:在圍棋中,這叫「敵之要點即我之要點」),而第17層用於標注我們現在究竟是執黑子還是白子,因為要考慮貼目的關系。
Q:有了強大的棋類引擎,我們可以給玩家一個評級——例如Elo圍棋等級分就是通過棋手對局的分析逐步得出的,那麼AlphaGo是否可以對過去有等級分前的棋手的實力進行分析?這可能為研究人類的認知提供一個平台。
Julian Schrittwieser:感謝分享,這個主意很棒!
我認為在圍棋中這完全可以做到,或許可以用最佳應對和實際應對的價值差異或者政策網路給每一手位置評估得到的概率來進行?我有空的時候試一下。
Q: 既然AlphaGo已經退役了,是否有將其開源的計劃?這將對圍棋社區和機器學習研究產生巨大的影響。還有,Hassabis在烏鎮宣稱的圍棋工具將會什麼時候發布?
David Silver:現在這個工具正在准備中。不久後你就能看到新的消息。
Q:AlphaGo開發過程中,在系統架構上遇到的最大障礙是什麼?
David Silver:我們遇到的一個重大挑戰是在和李世石比賽的時候,當時我們意識到AlphaGo偶爾會受到我們所謂的「妄想」的影響,也就是說,程序可能會錯誤理解當前盤面局勢,並在錯誤的方向上持續許多步。我們嘗試了許多方案,包括引入更多的圍棋知識或人類元知識來解決這個問題。但最終我們取得了成功,從AlphaGo本身解決了這個問題,更多地依靠強化學習的力量來獲得更高質量的解決方案。
圍棋愛好者的問題
Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發赤,該手成為扭轉敗局的「耳赤一手」。如果是AlphaGo,是否也會下出相同的一首棋?
Julian Schrittwieser:我問了樊麾,他的回答是這樣的:
當時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當年下那一手,很有可能下的是不同的另一個地方。
Q:從已發布的AlphaGo相互對局看,執白子的時間更為充裕,因而不少人猜測,7.5目的貼目太高了(註:現代圍棋的貼目數也在不斷變化,如在30年前,當時通行的是黑子貼白子5.5目)。
如果分析更大的數據集,是否可以對圍棋的規則得出一些有趣的結論?(例如,執黑或者執白誰更有優勢,貼目應該更高還是更低)
Julian Schrittwieser:從我的經驗和運行的結果看,7.5目的貼目對雙方來說是均勢的,黑子的勝率略高一些(55%左右)。
Q:你能給我們講一下第一手的選擇嗎?ALphaGo是否會下出我們前所未見的開局方式?比如說,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,這是否是一種「習慣」,或者說AlphaGo有強烈的「信念」認為星位、小目、三三是更好的選擇?
David Silver:在訓練中我們看到ALphaGo嘗試過不同方式的開局——甚至剛開始訓練的時候有過第一手下在一一!
即便在訓練後期,我們仍然能看到四、六位超高目的開局,但很快就恢復到小目等正常的開局了。
Q:作為AlphaGo的超級粉絲,有一個問題一直在我心中:AlphaGo可以讓職業棋手多少子?從論文中我們知道AlphaGo可以下讓子棋,我也知道AlphaGo恐怕讓不了柯潔兩子,但我想你們一定很好奇,你們是否有做內部測試?
David Silver:我們沒有和人類棋手下讓子棋。當然,我們在測試不同版本的時候下過讓子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan這三個版本中,後一個版本均可讓三子擊敗前一個版本。但是,因為AlphaGo是自我訓練的,所以尤其擅長打敗自己的較弱的前一版本,因此我們不認為這些訓練方式可以推廣到和人類選手的讓子棋中。
Q:你們有沒有想過使用生成對抗網路(GAN)?
David Sliver:從某種意義來講,自我對弈就是對抗的過程。每一次結果的迭代都是在試圖找到之前版本的「反向策略」。
傳言終結者
Q:我聽說AlphaGo在開發初期被引導在某一個具體的方向訓練以解決對弈中展現出的弱點。現在它的能力已經超過了人類,是否需要另外的機制來進一步突破?你們有做了什麼樣的工作?
David Silver:實際上,我們從未引導過AlphaGo來解決具體的弱點。我們始終專注於基礎的機器學習演算法,讓AlphaGo可以學習修復自己的弱點。
當然你不可能達到100%的完美,所以缺點總會存在。 在實踐中,我們需要通過正確的方法來確保訓練不會落入局部最優的陷阱,但是我們從未使用過人為的推動。
關於DeepMind公司
Q:我這里有幾個問題:在DeepMind工作是什麼感受?AlphaGo團隊成員都有誰?你能介紹一下AlphaGo團隊工作分配的情況嗎?下一個重大挑戰是什麼?
David Silver:在DeepMind工作感覺好極了:)——這不是一個招聘廣告,但我感覺每天可以在這里做我喜歡的事實在是太幸運了。有很多(多到忙不過來!:))很酷的項目去參與。
我們很幸運有許多大牛在AlphaGo工作。您可以通過查看相應的作者列表來獲取更詳細的信息。
Q: 你覺得本科生是否可以在人工智慧領域取得成功?
Julian Schrittwiese:當然。我本人就只有計算機科學學士學位,這一領域變化迅速,我認為您可以從閱讀最新的論文和試驗中來進行自學。另外,去那些做過機器學習項目的公司實習也是很有幫助的。
關於演算法的擴展和其他項目
Q:Hassabis今年三月份在劍橋的一個演講中表示,AlphaGo項目未來目標之一是對神經網路進行解釋。我的問題是:ALphaGo在神經網路結構上取得了什麼樣的進展,或者說,對AlphaGo,神經網路仍然是神秘的黑盒子?
David Silver:不僅僅是ALphaGo,可解釋性是我們所有項目的一個非常有意思的課題。Deepmind內部有多個團隊從不同方式來探索我們的系統,最近有團隊發表了基於認知心理學技術去嘗試破譯匹配網路內部發生了什麼,效果非常不錯!
Q: 很高興看到AlphaGo Zero的好成績。我們的一篇NIPS論文中也提到了對於深度學習和搜索樹之間效率的相似問題,因此我對於在更長的訓練過程中的行為尤其感興趣。
AlphaGo的訓練過程中,創建學習目標的蒙特卡洛樹搜索的貪心演算法、策略網路的貪心演算法、以及在訓練過程中價值功能變化的貪心演算法之間的相對表現如何?這種自我對局學習的方法是否可以應用在最近的星際爭霸 II API中?
David Silver:感謝介紹您的論文!真不敢相信這篇論文在我們4月7日投稿的時候已經發布了。事實上,它與我們的學習演算法的策略組件非常相似(盡管我們也有一個值組件),您可以參考我們的方法和強化學習中的討論,也很高興看到在其他游戲中使用類似方法。
Q:為什麼早期版本的AlphaGo沒有嘗試自我對弈?或者說,AlphaGo之前也嘗試過自我對弈但效果不好?
我對這個領域的發展和進步程度感到好奇。相比起今天,在兩年前在設計一個自主訓練的AlphaGo的瓶頸在哪裡?今天我們見到的「機器學習直覺」又是經歷了什麼樣的系統迭代過程?
David Silver:創建一個可以完全從自我學習的系統一直是加強學習的一個開放性問題。 我們最初的嘗試包括你能查到的許多類似的演算法,是相當不穩定的。 我們做了很多嘗試,最終AlphaGo Zero演算法是最有效的,而且似乎已經破解了這個特定的問題。
Q:你認為機器人什麼時候能夠有效解決現實世界關於高度、尺寸方面的問題(例如,自己學習如何抓取任何形狀、尺寸、位置垃圾的設備)?策略梯度方法是否是實現這一目標的關鍵點?
Julian Schrittwieser:這主要是由於價值/政策網路上的雙重改進,包括更好的訓練和更好的架構。具體參見論文圖4對不同網路架構的比較。
Q:據說擊敗柯潔的ALphaGo Master的功耗只是擊敗李世石的AlphaGo Lee的1/10。你們做了什麼樣的優化呢?
Julian Schrittwieser:這主要是由於價值/政策網路上的雙重改進,包括更好的訓練和更好的架構。具體參見論文圖4對不同網路架構的比較。(你確認不是上一個問題的答案嗎)
Q:看起來在增強學習中使用或模擬Agent的長期記憶是一個很大的障礙。 展望未來,您覺得我們是否能以一種新的思維方式解決這一點? 還是說需要等待我們技術可以實現一個超級網路?
Julian Schrittwieser:是的,長期記憶可能是一個重要的因子,例如在「星際爭霸」游戲中,你可能已經做出了上千個動作,但你還要記住你派出的偵察兵。
我認為現在已經有了令人振奮的組件(神經圖靈機!),但是我認為我們在這方面仍有很大的改進空間。
Q:David,我看過你的演講視頻,你提到增強學習可以用於金融交易, 你有沒有真實世界的例子? 你會如何處理黑天鵝事件(過去沒有遇到過的情況)?
David Silver:已經發表增強學慣用於現實世界的財務演算法的論文非常少見,但有一些經典論文值得一看,例如Nevmyvaka、Kearns在2006寫的那篇和Moody、Safell在2001年寫的那篇。
Q:你們和Facebook幾乎同時研究圍棋問題,你們能更快獲得大師級表現的優勢是什麼?
對於那些無法獲得像AlphaGo如此多的訓練數據的領域如何開展機器學習或者增強學習?
David_Silver:Facebook更側重於監督學習,我們選擇更多地關注強化學習,因為我們認為AlphaGo最終將超越人類的知識。 我們最近的結果實際上表明,監督學習方法可以讓人大吃一驚,但強化學習絕對是遠遠超出人類水平的關鍵之處。

閱讀全文

與分析界的AlphaGo相關的資料

熱點內容
嘉盛外匯時差 瀏覽:980
可轉債與可轉債基金的區別 瀏覽:153
4月10日北上資金 瀏覽:506
調研投資者賠償基金 瀏覽:326
2017我國消費貸款不良率 瀏覽:345
紅綠燈股票 瀏覽:319
天盛中國投資集團 瀏覽:906
米高梅股票 瀏覽:38
購買基金從什麼時間起算 瀏覽:691
基金黃陳 瀏覽:112
只投分級基金 瀏覽:6
a類期貨公司相關股票 瀏覽:487
東阿貸款5萬 瀏覽:585
立華投資王政 瀏覽:35
奧西康價格 瀏覽:964
外匯微盤哪個好 瀏覽:2
助學貸款有多少人逾期 瀏覽:819
貴港國海資金賬號5位升為 瀏覽:503
中國國際投資股份集團有限公司 瀏覽:59
開立外匯經常項目賬戶應注意 瀏覽:640