⑴ AlphaGo是什么 谷歌AlphaGo全解读
AlphaGo一般指阿尔法围棋
阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。
其主要工作原理是“深度学习”。
阿尔法围棋(AlphaGo)是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
⑵ 围棋界新星Alphago,会是人类终结者吗
AlphaGo作为一台超级计算机支持下的年闹围棋软件有其天然的优势,体力无限,没有情绪波动与外界干扰,计算能力精确及按照对手进行合理调整针对。然而,AlphaGo说实话还不是很完善,李世石与AlphaGo的5番棋,李世石并没有展现自己的最强实力,有两盘棋在明显优势下自己葬送。此外,在这5盘棋中,职业棋手发现AlphaGo在局部与全局取舍的判断,会产生失误,分不清大小。应对试应手时,手段生硬,十分业余。当然,AlphaGo最大优势是可以收入对局这曾经的棋谱加以分析应对,尤其是对手的败局与苦手们的下发。
早在AlphaGo和李世石大战刚刚开始时,世界冠军柯洁就像AlphaGo发出挑战,并且此后多次给予明确时间与地点的邀战,但是AlphaGo团队避而不战,估计正在修改漏洞。所以,电脑围棋想要真正终结人类围棋界的说法,还为时尚早。此外,围棋的进步速度超乎想象,人类还是占有一定优势的!
希望你能满意,谢谢!
⑶ AlphaGo凭什么再胜世界围棋第一人
在13日结束的AlphaGo与李世石五番棋对决中的第四局,李世石胜出。连败三局之后,人类终于扳回一局。但这场胜利来得有些迟,AlphaGo此前已经痛快得赢得这场人机大赛的胜利。这场生生夺走一周眼球的人机围棋大战,人们最想追问的是,AlphaGo为什么能战胜人类?
赛前,无论是职业棋手还是科技界,并不看好机器胜利
机器赢了人类,这个结果让无数人感到吃惊与意外。在这场比赛开始前,很多职业棋手认为 AlphaGo 不可能赢得比赛。棋圣聂卫平在赛前下定论认为:电脑和人下围棋,百分之百是人赢。
而科技界对 AlphaGo 是否能赢得比赛表示谨慎看好,并没有十足信心。这从 AlphaGo 创始人德米什 · 哈萨比斯(Demis Hassabis)在第二场比赛结束后的发言可以看出,他当时认为 AlphaGo 的胜利难以置信。
在与李世石对弈前,AlphaGo 于去年 10 月与欧洲围棋冠军樊麾进行了对弈,以 5:0 战胜了樊麾,而在非正式对局当中, 樊麾则 2 次中盘战胜了 AlphaGo。
这也被外界认为 AlphaGo 很难战胜李世石的原因。樊麾的等级为职业棋手二段,李世石为职业九段。围棋界公认,这两人的围棋水平为:樊麾是踏在了职业门槛,而李世石则是职业顶尖,前围棋世界第一人,代表了人类围棋最高水平。
但仅仅过了 5 个月,AlphaGo 在五番棋中以 3:0 战胜了李世石,并且在比赛过程中下出了很多令专业人士都非常惊讶的妙手。
很多关注人机大战的人都想要知道一个问题:
Google是怎么设计AlphaGo的?
比如,AlphaGo 的运行机理是什么?进入自我学习的阶段之后,谷歌团队是否还需要人工对其进行不断的人工优化、改良以及提升?还是完全凭借其自身的学习能力来提升?
最近两天 ,DoNews 记者在 Twitter 上就该问题向德米什 · 哈萨比斯进行了两次提问,但德米什 · 哈萨比斯没有进行回应。
在对外公布的所有信息中,包括其在《Nature》上发表过的两篇论文中,都只提到了他们的 AlphaGo 能够做什么,都没有透露 AlphaGo 的运行机制是什么,即 AlphaGo 到底是怎么做到的。
德米什 · 哈萨比斯仅透露,就 AlphaGo 的对弈水平而言,他们的神经网络训练算法远比它使用的那些硬件重要得多。此外,这次人机对战所消耗的计算量差不多与 AlphaGo 和樊辉对弈中消耗的相当,使用的是分布式方案搜寻,能有效节省决策用时。
人工智能战胜人类,为何引起这么多关注?
围棋这项发源于中国的有两千年历史的智力游戏,曾被认为是最后一个人工智能不能超越人类的游戏。围棋游戏的规则是:棋盘由纵横各十九条等距离、垂直交叉的平行线构成。形成 361 个交叉点,在围棋中简称为 “点”。对局双方各执一色棋子,轮流下子,最后谁占的点多,谁就赢。
虽然围棋规则简单,但建立在此规则之上的各种策略、棋理、布局、定式、手筋、手段,却是无穷无尽的。
聂卫平曾解释了其中的原因,围棋棋盘上有 361 个点,其理论变化值是 361 阶乘,阶乘到底本身就是一个无限大的数,无法表达。
比如,棋手在下第一手时有 361 个点可以选,下第二手有 360 个点,第三手是 359,361×360×359×……2×1,即 361 阶乘。(有数据统计,结果约是 1.43 乘以 10 的 768 次方。)
这个数字有多大呢?Google 灵感来源于一个单词 Googol,以表示知识之海无穷无尽。Googol 代表 “10 的 100 次方”,这个数字是人类目前最有想象力的数字。即使人类已知宇宙中原子数量,也不过是 10 的 80 次方。
同时,在围棋对弈中,还包含着很多变化:打二还一,打三还一,打劫,倒扑等,每一种变化都会衍生出无数的变化。
在下棋过程中,棋手需要有一种判断。而此前,电脑被认为无法承担这种判断,因为这不是计算就能够完成的。
AlphaGo 是怎么做到的?
AlphaGo 结合了 3 大块技术:蒙特卡洛树搜索 (MCTS) 是大框架,这也是很多博弈 AI 都会用的算法;强化学习 (RL) 是学习方法,用来提升 AI 的实力;深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数。
我们在这里用比较通俗的语言来解释一下:棋盘上有 361 个点,AlphaGo 会进行一层层分析:下在哪个点或区域是有利的?这时它会参考输入的过往的棋谱,对局和模拟,进行选择、推演,并对推演结果进行估值。AlphaGo 能够理解会根据“赢”这个目标来进行估值,选择出一个对“赢”足够优的解。
围棋?AI 能超越人类的还有很多.
AlphaGo 的胜利,引发了大讨论。因为人类开始面临着一个前所未有的情况:人类造出了,在智能的某个点上,超越自己的东西。 通过黑白纹枰上的胜利,AI 已经在人类的智力围墙打开了第一个缺口,但这绝非最后一个。
在过往漫长的岁月里,机器都只是人类劳动的一种替代与工具,无论飞机、汽车、起重机还是电子计算机、互联网,尽管看上去有着无限的能力,但却从未侵入由人类大脑所把持的领域——“创造”。
而随着 AlphaGo 的胜利,这一天或许将成为历史。实际上,过去几天,这台人工智能在围棋盘上发挥的创造能力,已经超越了人类两千年于此道上积累的智慧结晶。
如果我们检索人类的“资源库”,会发现,复杂程度超越围棋的智力行为并不多见。这也意味着很多传统人类脑力劳动的形态,发生改变。很多从事创作、设计、推演、归纳的工作,都将被 AI 部分替代。
如果将思路拓展出去,可以应用在音乐的创作,等其他类似于元素组合式的创造,从某中意义上说,它能够击败围棋的顶尖高手,也就有可能让人难辨真假的音乐和旋律。甚至做出更多我们想不到的事情。
按照德米什 · 哈萨比斯的设想,人工智能未来的主要用途将是医疗、智能助理和机器人。
而人们通过这次比赛担忧的是,如果人工智能拥有创造性的思维,加上远超出人类的运算能力,是否有一天会统治人类。
就像网友评论里说的段子一样,“第四局AlphaGo输了,是不是AlphaGo故意输的?细思极恐”。
⑷ 如何看待 AlphaGo 第二次战胜李世乭
李世石为什么能战胜AlphaGo?原理就在陈经的计算中
陈经
【@中科大胡不归
按:2016年3月12日,李世石对AlphaGo连负三局后,舆论对人类棋手充满悲观的空气,普遍认为人类再也斗不过电脑了。中国科学技术大学科技与战略风云学会研究员陈经对围棋和计算机科学都素有研究,经过彻夜思考后,在3月13日凌晨写出此文,原标题为《机器完胜后分析AlphaGo算法巨大的优势与可能的缺陷》。3月13日上午9:55,在第四局比赛开始前发表在观察者网:http://www.guancha.cn/chenjing/2016_03_13_353749_s.shtml。
第四局比赛,李世石在大势落后的情况下,在激烈的战斗中下出绝妙的白78手挖,被古力盛赞为“神之一手”。此后AlphaGo突然好像不会下棋了,初学者水平的无理手连发,损之又损,最终认输。李世石取胜的战略是什么?为什么电脑会犯傻?答案就在此文中:大局观要顶得住,不能早早被它控制住了。局部手段小心,不要中招。顶住以后,在开放式的接触战中等它自己犯昏。或者在局部定型中看它自己亏目。在接触战中,要利用它“不喜欢打劫”的特性,利用一些劫争的分枝虚张声势逼它让步,但又不能太过分把它逼入对人类不利的劫争中。
向人类的理性致敬!向人类的意志力致敬!向人类的创造力致敬!在我们面前,是一个更广阔的世界!】
2016年3月12日人机大战第三局,AlphaGo执白176手中盘胜李世石,以3:0的比分提前取得了对人类的胜利。
这一局李世石败得最惨,早早就被AlphaGo妙手击溃,整盘毫无机会。最后李世石悲壮地造劫,在AlphaGo脱先之后终于造出了紧劫。但AlphaGo只靠本身劫就赢得了劫争,粉碎了AlphaGo不会打劫的猜想。这一局AlphaGo表现出的水平是三局中最高的,几乎没有一手棋能被人置疑的,全是好招。三局过去,AlphaGo到底实力高到什么程度,人们反而更不清楚了。
看完这三局,棋界终于差不多绝望了,原以为5:0的,都倒向0:5了。有些职业棋手在盘算让先、让二子是否顶得住。整个历程可以和科幻小说《三体》中的黑暗战役类比,人类开始对战胜三体人信心满满,一心想旁观5:0的大胜。一场战斗下来人类舰队全灭,全体陷入了0:5的悲观失望情绪中。
我也是纠结了一阵子,看着人类在围棋上被机器碾压的心情确实不好。但是承认机器的优势后,迅速完成了心理建设,又开心地看待围棋了。其实挺容易的,国际象棋界早就有这样的事了。这个可以等五盘棋过后写。
现在我的感觉是,棋界整体还是对AlphaGo的算法以及风格很不适应。一开始轻视,一输再输,姿态越来越低,三盘过后已经降到一个很低迷沉郁的心理状态了。这也可以理解,我一个围棋迷都抑郁了一会,何况是视棋如生命的职业棋手。但是不管如何,还是应该从技术的角度平心静气地搞清楚,AlphaGo到底是怎么下棋的,优势到底在哪些,是不是就没有一点弱点了?
现在有了三盘高水平的棋谱,质量远高于之前和樊麾的五盘棋谱。还有谷歌2016年1月28号发表在《自然》上的论文,介绍了很多技术细节,还有一些流传的消息,其实相关的信息并不少,可以作出一些技术分析了。
之前一篇文章提到,从研发的角度看,谷歌团队把15-20个专家凑在了一起,又提供了巨量的高性能计算资源,建立起了整个AlphaGo算法研究的“流水线”。这样谷歌团队就从改程序代码的麻烦工作中解放出来,变成指挥机器干活,开动流水线不断学习进步,改善策略网络价值网络的系数。而且这个研发架构似乎没有什么严重的瓶颈,可以持续不断地自我提升,有小瓶颈也可以想办法再改训练方法。就算它终于遇到了瓶颈,可能水平也远远超过人类了。
这些复杂而不断变动的神经网络系数是AlphaGo的独门绝技,要训练这些网络,需要比分布式版本对局时1200多个CPU多得多的计算资源。AlphaGo算法里还是有一些模块代码是需要人去写的,这些代码可不是机器训练出来的,再怎么训练也改不了,谷歌团队还不可能做到这么厉害。例如蒙特卡洛搜索(MCTS)整个框架的代码,例如快速走子网络的代码。这里其实有两位论文共同第一作者David Silver和Aja Huang多年积累的贡献。这些人写的代码,就会有内在的缺陷,不太可能是完美无缺的。这些缺陷不是“流水线”不眠不休疯狂训练能解决的,是AlphaGo真正的内在缺陷,是深度学习、self-play、进化、强化学习这些高级名词解决不了的。谷歌再能堆硬件,也解决不了,还得人去改代码。
第一局开赛前,谷歌就说其实还在忙着换版本,最新版本不稳定,所以就用上一个固定版本了。这种开发工作,有可能就是人工改代码补消除bug的,可能测试没完,不敢用。
总之,象AlphaGo这么大一个软件,从算法角度看存在bug是非常可能的。在行棋时表现出来
⑸ 分析世界围棋柯洁和阿尔法狗阿尔法对战属于计算机应用领域的哪一类应用
分析世界围棋柯洁和阿尔法狗阿尔法对战属于计算机应用领域的哪一类应用?
⑹ 都说魔脑翻译机是翻译界的AlphaGo,真有那么厉害吗
现在随着科技的发展,已经没有什么做不到的了,翻译机的出现也是人类又一大进步,能够补足翻译人员的稀缺,现在的人工智能翻译机能够深度学习,翻译的越多越好,据我所知,魔脑神笔是其中做的不错的一款。
⑺ AlphaGo 为什么它能战胜人类
在13日结束的AlphaGo与李世石五番棋对决中的第四局,李世石胜出。连败三局之后,人类终于扳回一局。但这场胜利来得有些迟,AlphaGo此前已经痛快得赢得这场人机大赛的胜利。这场生生夺走一周眼球的人机围棋大战,人们最想追问的是,AlphaGo为什么能战胜人类?
赛前,无论是职业棋手还是科技界,并不看好机器胜利
机器赢了人类,这个结果让无数人感到吃惊与意外。在这场比赛开始前,很多职业棋手认为 AlphaGo 不可能赢得比赛。棋圣聂卫平在赛前下定论认为:电脑和人下围棋,百分之百是人赢。
而科技界对 AlphaGo 是否能赢得比赛表示谨慎看好,并没有十足信心。这从 AlphaGo 创始人德米什 · 哈萨比斯(Demis Hassabis)在第二场比赛结束后的发言可以看出,他当时认为 AlphaGo 的胜利难以置信。
在与李世石对弈前,AlphaGo 于去年 10 月与欧洲围棋冠军樊麾进行了对弈,以 5:0 战胜了樊麾,而在非正式对局当中, 樊麾则 2 次中盘战胜了 AlphaGo。
这也被外界认为 AlphaGo 很难战胜李世石的原因。樊麾的等级为职业棋手二段,李世石为职业九段。围棋界公认,这两人的围棋水平为:樊麾是踏在了职业门槛,而李世石则是职业顶尖,前围棋世界第一人,代表了人类围棋最高水平。
但仅仅过了 5 个月,AlphaGo 在五番棋中以 3:0 战胜了李世石,并且在比赛过程中下出了很多令专业人士都非常惊讶的妙手。
很多关注人机大战的人都想要知道一个问题:
Google是怎么设计AlphaGo的?
比如,AlphaGo 的运行机理是什么?进入自我学习的阶段之后,谷歌团队是否还需要人工对其进行不断的人工优化、改良以及提升?还是完全凭借其自身的学习能力来提升?
最近两天 ,DoNews 记者在 Twitter 上就该问题向德米什 · 哈萨比斯进行了两次提问,但德米什 · 哈萨比斯没有进行回应。
在对外公布的所有信息中,包括其在《Nature》上发表过的两篇论文中,都只提到了他们的 AlphaGo 能够做什么,都没有透露 AlphaGo 的运行机制是什么,即 AlphaGo 到底是怎么做到的。
德米什 · 哈萨比斯仅透露,就 AlphaGo 的对弈水平而言,他们的神经网络训练算法远比它使用的那些硬件重要得多。此外,这次人机对战所消耗的计算量差不多与 AlphaGo 和樊辉对弈中消耗的相当,使用的是分布式方案搜寻,能有效节省决策用时。
人工智能战胜人类,为何引起这么多关注?
围棋这项发源于中国的有两千年历史的智力游戏,曾被认为是最后一个人工智能不能超越人类的游戏。围棋游戏的规则是:棋盘由纵横各十九条等距离、垂直交叉的平行线构成。形成 361 个交叉点,在围棋中简称为 “点”。对局双方各执一色棋子,轮流下子,最后谁占的点多,谁就赢。
虽然围棋规则简单,但建立在此规则之上的各种策略、棋理、布局、定式、手筋、手段,却是无穷无尽的。
聂卫平曾解释了其中的原因,围棋棋盘上有 361 个点,其理论变化值是 361 阶乘,阶乘到底本身就是一个无限大的数,无法表达。
比如,棋手在下第一手时有 361 个点可以选,下第二手有 360 个点,第三手是 359,361×360×359×……2×1,即 361 阶乘。(有数据统计,结果约是 1.43 乘以 10 的 768 次方。)
这个数字有多大呢?Google 灵感来源于一个单词 Googol,以表示知识之海无穷无尽。Googol 代表 “10 的 100 次方”,这个数字是人类目前最有想象力的数字。即使人类已知宇宙中原子数量,也不过是 10 的 80 次方。
同时,在围棋对弈中,还包含着很多变化:打二还一,打三还一,打劫,倒扑等,每一种变化都会衍生出无数的变化。
在下棋过程中,棋手需要有一种判断。而此前,电脑被认为无法承担这种判断,因为这不是计算就能够完成的。
AlphaGo 是怎么做到的?
AlphaGo 结合了 3 大块技术:蒙特卡洛树搜索 (MCTS) 是大框架,这也是很多博弈 AI 都会用的算法;强化学习 (RL) 是学习方法,用来提升 AI 的实力;深度神经网络 (DNN) 是工具,用来拟合局面评估函数和策略函数。
我们在这里用比较通俗的语言来解释一下:棋盘上有 361 个点,AlphaGo 会进行一层层分析:下在哪个点或区域是有利的?这时它会参考输入的过往的棋谱,对局和模拟,进行选择、推演,并对推演结果进行估值。AlphaGo 能够理解会根据“赢”这个目标来进行估值,选择出一个对“赢”足够优的解。
围棋?AI 能超越人类的还有很多.......
AlphaGo 的胜利,引发了大讨论。因为人类开始面临着一个前所未有的情况:人类造出了,在智能的某个点上,超越自己的东西。 通过黑白纹枰上的胜利,AI 已经在人类的智力围墙打开了第一个缺口,但这绝非最后一个。
在过往漫长的岁月里,机器都只是人类劳动的一种替代与工具,无论飞机、汽车、起重机还是电子计算机、互联网,尽管看上去有着无限的能力,但却从未侵入由人类大脑所把持的领域——“创造”。
而随着 AlphaGo 的胜利,这一天或许将成为历史。实际上,过去几天,这台人工智能在围棋盘上发挥的创造能力,已经超越了人类两千年于此道上积累的智慧结晶。
如果我们检索人类的“资源库”,会发现,复杂程度超越围棋的智力行为并不多见。这也意味着很多传统人类脑力劳动的形态,发生改变。很多从事创作、设计、推演、归纳的工作,都将被 AI 部分替代。
如果将思路拓展出去,可以应用在音乐的创作,等其他类似于元素组合式的创造,从某中意义上说,它能够击败围棋的顶尖高手,也就有可能让人难辨真假的音乐和旋律。甚至做出更多我们想不到的事情。
按照德米什 · 哈萨比斯的设想,人工智能未来的主要用途将是医疗、智能助理和机器人。
而人们通过这次比赛担忧的是,如果人工智能拥有创造性的思维,加上远超出人类的运算能力,是否有一天会统治人类。
就像网友评论里说的段子一样,“第四局AlphaGo输了,是不是AlphaGo故意输的?细思极恐”。
⑻ 李世石和AlphaGo的五局棋谱应该怎么分析
比赛结束,alphago四比一完胜李世石,仅胜利第四局(不是第五局)还可能是谷歌为了让alphago有世界排名而故意输的一局,因为如果一个棋手一直连胜,是没有世界排名的,输了一局才有排名,按照官方发布目前alphago排名世界第二,中国小将柯杰世界第一。这种说法不无道理。 谷歌非常有谋略,先让阿尔法狗连赢三次,奠定胜利的事实,展示人工智能的厉害!让人恐慌! 然后,谷歌让阿尔法狗输棋给李世石,以明白无误的方式告诉恐慌的人们:不要害怕,我们掌控着人工智能的! 如果人工智能把人逼上绝路,人工智能产业就会遭到人们的封杀! 谷歌输一局,缓和局面。 中日韩还有成千上万围棋学习者和相关从业人员,Google是商业公司,当然不会把事情做绝,肯定会考量这方面的因素。
⑼ 如何打造史上最强AlphaGo
最强AlphaGo Zero怎样炼成
刚刚,Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文,相关的提问和讨论也异常热烈。
什么是AMA?
AMA(Ask Me Anything)是由Reddit的特色栏目,你也可以将其理解为在线的“真心话大冒险”。AMA一般会约定一个时间,并提前若干天在Reddit上收集问题,回答者统一解答。
本次Deepmind AMA的回答人是:
David Silver:Deepmind强化学习组负责人,AlphaGo首席研究员。David Silver1997年毕业于剑桥大学,获得艾迪生威斯利奖。David于2004年在阿尔伯塔大学获得计算机博士学位,2013年加盟DeepMind,是AlphaGo项目的主要技术负责人。
Julian Schrittwieser:Deepmind高级软件工程师。
此前有多位机器学习界的大牛/公司在Reddit Machine Learning版块开设AMA,包括:Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。
我们从今天Deepmind的AMA中选取了一些代表性的问题,整理如下:
关于论文与技术细节
Q: Deepmind Zero的训练为什么如此稳定?深层次的增强学习是不稳定和容易遗忘的,自我对局也是不稳定和容易遗忘的,如果没有一个好的基于模仿的初始化状态和历史检查点,二者结合在一起应该是一个灾难...但Zero从零开始,我没有看到论文中有这部分的内容,你们是怎么做到的呢?
David Silver:在深层增强学习上,AlphaGo Zero与典型的无模式算法(如策略梯度或者Q学习)采用的是完全不同的算法。通过使用AlphaGo搜索,我们可以极大改进策略和自我对局的结果,然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。比起基于简便的基于梯度的策略改进,这样的做法会更加稳定。
Q:我注意到ELO等级分增长的数据只与到第40天,是否是因为论文截稿的原因?或者说之后AlphaGo的数据不再显著改善?
David Silver:AlphaGo已经退役了!这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走呐。
Q:关于论文的两个问题:
Q1:您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗?我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述?我觉得1、2个层就够了啊。虽然我不是100%理解围棋的规则,但8个层看起来也多了点吧?
Q2:由于整个通道使用自我对局与最近的/最好的模型进行比较,你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险?
David Silver:说起来使用表征可能比现在用的8层堆叠的做法更好!但我们使用堆叠的方式观察历史数据有三个原因:1)它与其他领域的常见输入一致;2)我们需要一些历史状态来表示被KO;3)如果有一些历史数据,我们可以更好地猜测对手最近下的位置,这可以作为一种关注机制(注:在围棋中,这叫“敌之要点即我之要点”),而第17层用于标注我们现在究竟是执黑子还是白子,因为要考虑贴目的关系。
Q:有了强大的棋类引擎,我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的,那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析?这可能为研究人类的认知提供一个平台。
Julian Schrittwieser:感谢分享,这个主意很棒!
我认为在围棋中这完全可以做到,或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行?我有空的时候试一下。
Q: 既然AlphaGo已经退役了,是否有将其开源的计划?这将对围棋社区和机器学习研究产生巨大的影响。还有,Hassabis在乌镇宣称的围棋工具将会什么时候发布?
David Silver:现在这个工具正在准备中。不久后你就能看到新的消息。
Q:AlphaGo开发过程中,在系统架构上遇到的最大障碍是什么?
David Silver:我们遇到的一个重大挑战是在和李世石比赛的时候,当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响,也就是说,程序可能会错误理解当前盘面局势,并在错误的方向上持续许多步。我们尝试了许多方案,包括引入更多的围棋知识或人类元知识来解决这个问题。但最终我们取得了成功,从AlphaGo本身解决了这个问题,更多地依靠强化学习的力量来获得更高质量的解决方案。
围棋爱好者的问题
Q:1846年,在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中,秀策下的第127手让幻庵因硕一时惊急两耳发赤,该手成为扭转败局的“耳赤一手”。如果是AlphaGo,是否也会下出相同的一首棋?
Julian Schrittwieser:我问了樊麾,他的回答是这样的:
当时的围棋不贴目,而AlphaGo的对局中,黑棋需贴7.5目。贴目情况不同造成了古今棋局的差异,如果让AlphaGo穿越到当年下那一手,很有可能下的是不同的另一个地方。
Q:从已发布的AlphaGo相互对局看,执白子的时间更为充裕,因而不少人猜测,7.5目的贴目太高了(注:现代围棋的贴目数也在不断变化,如在30年前,当时通行的是黑子贴白子5.5目)。
如果分析更大的数据集,是否可以对围棋的规则得出一些有趣的结论?(例如,执黑或者执白谁更有优势,贴目应该更高还是更低)
Julian Schrittwieser:从我的经验和运行的结果看,7.5目的贴目对双方来说是均势的,黑子的胜率略高一些(55%左右)。
Q:你能给我们讲一下第一手的选择吗?ALphaGo是否会下出我们前所未见的开局方式?比如说,第一手下在天元或者目外,甚至更奇怪的地方?如果不是,这是否是一种“习惯”,或者说AlphaGo有强烈的“信念”认为星位、小目、三三是更好的选择?
David Silver:在训练中我们看到ALphaGo尝试过不同方式的开局——甚至刚开始训练的时候有过第一手下在一一!
即便在训练后期,我们仍然能看到四、六位超高目的开局,但很快就恢复到小目等正常的开局了。
Q:作为AlphaGo的超级粉丝,有一个问题一直在我心中:AlphaGo可以让职业棋手多少子?从论文中我们知道AlphaGo可以下让子棋,我也知道AlphaGo恐怕让不了柯洁两子,但我想你们一定很好奇,你们是否有做内部测试?
David Silver:我们没有和人类棋手下让子棋。当然,我们在测试不同版本的时候下过让子棋,在AlphaGo Master>AlphaGo Lee>ALphaGo Fan这三个版本中,后一个版本均可让三子击败前一个版本。但是,因为AlphaGo是自我训练的,所以尤其擅长打败自己的较弱的前一版本,因此我们不认为这些训练方式可以推广到和人类选手的让子棋中。
Q:你们有没有想过使用生成对抗网络(GAN)?
David Sliver:从某种意义来讲,自我对弈就是对抗的过程。每一次结果的迭代都是在试图找到之前版本的“反向策略”。
传言终结者
Q:我听说AlphaGo在开发初期被引导在某一个具体的方向训练以解决对弈中展现出的弱点。现在它的能力已经超过了人类,是否需要另外的机制来进一步突破?你们有做了什么样的工作?
David Silver:实际上,我们从未引导过AlphaGo来解决具体的弱点。我们始终专注于基础的机器学习算法,让AlphaGo可以学习修复自己的弱点。
当然你不可能达到100%的完美,所以缺点总会存在。 在实践中,我们需要通过正确的方法来确保训练不会落入局部最优的陷阱,但是我们从未使用过人为的推动。
关于DeepMind公司
Q:我这里有几个问题:在DeepMind工作是什么感受?AlphaGo团队成员都有谁?你能介绍一下AlphaGo团队工作分配的情况吗?下一个重大挑战是什么?
David Silver:在DeepMind工作感觉好极了:)——这不是一个招聘广告,但我感觉每天可以在这里做我喜欢的事实在是太幸运了。有很多(多到忙不过来!:))很酷的项目去参与。
我们很幸运有许多大牛在AlphaGo工作。您可以通过查看相应的作者列表来获取更详细的信息。
Q: 你觉得本科生是否可以在人工智能领域取得成功?
Julian Schrittwiese:当然。我本人就只有计算机科学学士学位,这一领域变化迅速,我认为您可以从阅读最新的论文和试验中来进行自学。另外,去那些做过机器学习项目的公司实习也是很有帮助的。
关于算法的扩展和其他项目
Q:Hassabis今年三月份在剑桥的一个演讲中表示,AlphaGo项目未来目标之一是对神经网络进行解释。我的问题是:ALphaGo在神经网络结构上取得了什么样的进展,或者说,对AlphaGo,神经网络仍然是神秘的黑盒子?
David Silver:不仅仅是ALphaGo,可解释性是我们所有项目的一个非常有意思的课题。Deepmind内部有多个团队从不同方式来探索我们的系统,最近有团队发表了基于认知心理学技术去尝试破译匹配网络内部发生了什么,效果非常不错!
Q: 很高兴看到AlphaGo Zero的好成绩。我们的一篇NIPS论文中也提到了对于深度学习和搜索树之间效率的相似问题,因此我对于在更长的训练过程中的行为尤其感兴趣。
AlphaGo的训练过程中,创建学习目标的蒙特卡洛树搜索的贪心算法、策略网络的贪心算法、以及在训练过程中价值功能变化的贪心算法之间的相对表现如何?这种自我对局学习的方法是否可以应用在最近的星际争霸 II API中?
David Silver:感谢介绍您的论文!真不敢相信这篇论文在我们4月7日投稿的时候已经发布了。事实上,它与我们的学习算法的策略组件非常相似(尽管我们也有一个值组件),您可以参考我们的方法和强化学习中的讨论,也很高兴看到在其他游戏中使用类似方法。
Q:为什么早期版本的AlphaGo没有尝试自我对弈?或者说,AlphaGo之前也尝试过自我对弈但效果不好?
我对这个领域的发展和进步程度感到好奇。相比起今天,在两年前在设计一个自主训练的AlphaGo的瓶颈在哪里?今天我们见到的“机器学习直觉”又是经历了什么样的系统迭代过程?
David Silver:创建一个可以完全从自我学习的系统一直是加强学习的一个开放性问题。 我们最初的尝试包括你能查到的许多类似的算法,是相当不稳定的。 我们做了很多尝试,最终AlphaGo Zero算法是最有效的,而且似乎已经破解了这个特定的问题。
Q:你认为机器人什么时候能够有效解决现实世界关于高度、尺寸方面的问题(例如,自己学习如何抓取任何形状、尺寸、位置垃圾的设备)?策略梯度方法是否是实现这一目标的关键点?
Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。
Q:据说击败柯洁的ALphaGo Master的功耗只是击败李世石的AlphaGo Lee的1/10。你们做了什么样的优化呢?
Julian Schrittwieser:这主要是由于价值/政策网络上的双重改进,包括更好的训练和更好的架构。具体参见论文图4对不同网络架构的比较。(你确认不是上一个问题的答案吗)
Q:看起来在增强学习中使用或模拟Agent的长期记忆是一个很大的障碍。 展望未来,您觉得我们是否能以一种新的思维方式解决这一点? 还是说需要等待我们技术可以实现一个超级网络?
Julian Schrittwieser:是的,长期记忆可能是一个重要的因子,例如在“星际争霸”游戏中,你可能已经做出了上千个动作,但你还要记住你派出的侦察兵。
我认为现在已经有了令人振奋的组件(神经图灵机!),但是我认为我们在这方面仍有很大的改进空间。
Q:David,我看过你的演讲视频,你提到增强学习可以用于金融交易, 你有没有真实世界的例子? 你会如何处理黑天鹅事件(过去没有遇到过的情况)?
David Silver:已经发表增强学习用于现实世界的财务算法的论文非常少见,但有一些经典论文值得一看,例如Nevmyvaka、Kearns在2006写的那篇和Moody、Safell在2001年写的那篇。
Q:你们和Facebook几乎同时研究围棋问题,你们能更快获得大师级表现的优势是什么?
对于那些无法获得像AlphaGo如此多的训练数据的领域如何开展机器学习或者增强学习?
David_Silver:Facebook更侧重于监督学习,我们选择更多地关注强化学习,因为我们认为AlphaGo最终将超越人类的知识。 我们最近的结果实际上表明,监督学习方法可以让人大吃一惊,但强化学习绝对是远远超出人类水平的关键之处。