雷锋网 - AlphaZero 荣登《科学》杂志封面

上一篇(左方向键) 下一篇(右方向键) 回目录(回车键) 粗体(B键)  正常(N键) 随机浏览(S键)   浏览次数:18    发布时间:2018/12/8 21:51:25   出处:雷锋网   

  雷锋网 AI 科技评论按:一年前,Alphabet 旗下人工智能部门 DeepMind 发布 AlphaZero,称它可以自学国际象棋、日本将棋和中国围棋,并且项项都能击败世界冠军。而今天,经过同行评议,AlphaZero 一举登上《科学》杂志封面。

AlphaZero 荣登《科学》杂志封面 - 后花园网文 - 科技新闻

  据此前 DeepMind 在 AlphaZero 的论文中介绍,AlphaZero 使用了完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化的通用强化学习算法。也就是说,AlphaZero 实质上就是 AlphaGo Zero 的通用化进化版本,它继续保持了 AlphaGo Zero 中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙特卡洛树搜索的特点,并在此基础上,更新网络参数,减小网络估计的比赛结果和实际结果之间的误差,同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。

  然而,在 DeepMind 发布 AlphaZero 之际,AlphaZero 也遭到了某种程度的质疑,例如,一位 AI 研究人员就指出,DeepMind 没有公开它的 AI 系统源代码,因此难以检验和重复它公布的结果。而如今这项研究成果经过同行评议登上《科学》杂志的首页,算是得到了证明。有趣的是,AlphaZero 的直接对手——棋手们也纷纷表达了他们的赞许:

  例如日本将棋 9 段职业选手、棋史上唯一一位获得「永世七冠」头衔的棋士 Yoshiharu Habu 就评价道:

  

  它的一些移动方法,比如将 King 移到棋盘的中心,就违背了日本将棋棋法。从人类的角度来看,AlphaZero 的这种做法似乎已将其置于危险的境地,但令人难以置信的是,它仍然掌控住了棋局。它独特的下棋风格,让我们看到了棋法新的可能性。

  

  而前国际象棋世界冠军 Garry Kasparov 也止不住地称赞道:

  

  我无法掩饰我的赞许,因为它的下棋风格灵活多变,这跟我自己的风格很像!

  一个多世纪以来,象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero 以一种独特的方式,对古代棋盘游戏与前沿科学之间的显著联系带来了新的东西。

  其影响远远超出了我心爱的棋盘。这些自学成才的专家机器不仅表现得无比出色,而且实际上,我们人类还可以从它们产出的新知识中学习。

  

AlphaZero 荣登《科学》杂志封面 - 后花园网文 - 科技新闻

  正如我们在前面提到的,AlphaZero 是 AlphaGo Zero 的通用化进化版本,而 AlphaGo Zero 又源自于 AlphaGo,接下来我们不妨简单回顾一下这几个版本:

  最初的 AlphaGo 的工作原理是:

  

  在蒙特卡罗树搜索(MCTS)的框架下引入两个卷积神经网络策略网络和价值网络以改进纯随机的蒙特卡罗(Monte Carlo)模拟,并借助监督学习和强化学习训练这两个网络,然后主要靠策略网络和价值网络分别预测下一步落子的点以及评估当前的局势。

  

  而从 AlphaGo 到 AlphaGo Zero,系统的思路和模型结构都得到了大幅度简化,带来的是更快的训练和运行速度,以及更高的棋力。

  

  在更早版本的 AlphaGo 中,策略网络和价值网络是两个不同的深度神经网络,Zero 版本中是同一个 ResNet 的两组输出;

  AlphaGo Zero 之前几个版本中都需要先把局面转换为高一层的人工特征再作为网络的输入、需要先学习人类棋谱再转变到自我对弈的强化学习、有一个单独的快速走子网络进行随机模拟,而 AlphaGo Zero 则把局面落子情况直接作为网络的输入、由随机的网络权值直接开始强化学习、舍弃快速走子网络直接用主要的神经网络模拟走子。

  

  接着从 AlphaGo Zero 到 AlphaZero,发生的变化主要体现在如下几个方面:

  

  第一,AlphaGo Zero 会预计胜率,然后优化胜率,其中只考虑胜、负两种结果;AlphaZero 则会估计比赛结果,然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果。

  第二,由于围棋规则是具有旋转和镜像不变性的,所以专为围棋设计的 AlphaGo Zero 和通用的 AlphaZero 就有不同的实现方法。AlphaGo Zero 训练中会为每个棋局做 8 个对称的增强数据;并且在蒙特卡洛树搜索中,棋局会先经过随机的旋转或者镜像变换之后再交给神经网络评估,这样蒙特卡洛评估就可以在不同的偏向之间得到平均。国际象棋和日本象棋都是不对称的,以上基于对称性的方法就不能用了。所以 AlphaZero 并不增强训练数据,也不会在蒙特卡洛树搜索中变换棋局。

  第三,在 AlphaGo Zero 中,自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的。在每一次训练迭代之后,新版本棋手的表现都要跟原先的表现最好的版本做对比;如果新的版本能以超过 55% 的胜率赢过原先版本,那么这个新的版本就会成为新的「表现最好的版本」,然后用它生成新的棋局供后续的迭代优化使用。相比之下,AlphaZero 始终都只有一个持续优化的神经网络,自我对局的棋局也就是由具有最新参数的网络生成的,不再像原来那样等待出现一个「表现最好的版本」之后再评估和迭代。这实际上增大了训练出一个不好的结果的风险。

  第四,AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero 中直接对所有的棋类使用了同一套超参数,不再对每种不同的棋做单独的调节。唯一的例外在于训练中加在先前版本策略上的噪声的大小,这是为了保证网络有足够的探索能力;噪声的大小根据每种棋类的典型可行动作数目做了成比例的缩放。

  

  将 AlphaGo 发展到 Alpha Zero,DeepMind 无疑是带给了我们惊喜的。使用人工特征的 AlphaGo Fan 在出山之战中便全胜打败樊麾,还发出第一篇论文;运行在 50 块 TPU 上的 AlphaGo Lee 以 4:1 的战绩击败李世石,还创作了纪录片并上映;接着只用 4 块 TPU 的 AlphaGo Master 又在乌镇围棋峰会上以 3:0 击败柯洁,打碎了人类所有击败 AlphaGo 幻想;再又有抛弃人工特征和所有人类高手棋局的 AlphaGo Zero 靠自学成功超越了「前辈」AlphaGo Master。而现在,DeepMind 带来的这个更通用的、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型——「AlphaZero」,则给我们带来了更上一层的惊喜。

  正如雷锋网 AI 科技评论在此前对 AlphaZero 的报道中所总结的那样:在 AlphaGo 的一路进化中,我们见证了 DeepMind 的工程师们对深度强化学习本质的思考和尝试,也看到了不断的优化中带来的无需先验知识、降低资源消耗、提高训练速度等等可喜的技术进步。而本次 AlphaZero 登上《科学》杂志封面,也算是对他们所作出的尝试和带来的技术进步的一种回应。接下来DeepMind 还将让Alpha Zero 进化到什么哪个版本呢?让我们期待一下吧~雷锋网

最大的穷忙是不懂投资自己

  

雷锋网』的更多其他内容(随机显示)

01、海康威视牵手绿色江河 升级斑头雁保护

2018/12/7 19:08:09

02、联发科首秀5G多模整合基带芯片Helio M70

2018/12/7 18:39:35

03、解读 高通全新 PC 平台骁龙 8cx 到底强在哪里?

2018/12/7 18:14:52

04、为何多人喜欢屏幕挂灯?这次笔记本挂灯ScreenBar Lite“破案”了

2018/12/7 16:34:02

05、工信部明确鼓励汽车代工,造车新势力们有福了

2018/12/7 14:01:33

06、从双十一到黑五,它引领了全球服务机器人市场

2018/12/7 12:31:34

07、三大运营商5G频谱落定 重演3G时代旧事?

2018/12/7 1:14:40

08、孵化于 Flyme 团队,WakeData 如何“唤醒”线下零售数据

2018/12/6 22:05:00

09、硬盘大佬也玩CPU!西部数据公布RISC-V自研架构SweRV及开源指令集模拟器

2018/12/6 21:03:18

10、2019云计算战局前瞻:百度云要啃“硬骨头”

2018/12/6 20:01:56

11、阿里云推出全栈IPv6解决方案,加速推进下一代互联网应用

2018/12/6 18:34:27

12、Waymo One 正式上线,它真的不是仓促上马的半成品?

2018/12/6 14:23:01

13、李飞飞主讲斯坦福大学 CS231n 课程笔记

2018/12/6 13:26:39

14、NVIDIA 迁移学习工具包 :用于特定领域深度学习模型快速训练的高级SDK

2018/12/5 20:57:08

15、滴滴宣布架构大调整,强调安全第一

2018/12/5 18:29:46

16、大疆发布新一代植保无人机,还想用「成本共担」方式激活市场

2018/12/5 18:23:36

17、寻找最具商业价值的AI应用,「2018 AI最佳掘金案例年度榜单」进入评审阶段

2018/12/5 12:19:27

18、5G来了!高通发布全新旗舰骁龙 855

2018/12/5 9:44:45

19、强化混合云平台战略 万国数据为何要推云连接?

2018/12/4 20:24:46

20、发布智能摄像头、中央域控制器以及L3自动驾驶系统,强调量产落地的知行科技如何成为合格 Tier1?

2018/12/4 18:48:43

21、云计算公司为什么要走进“工厂的拐角”?

2018/12/4 18:21:14

22、蔚来ES8已交付8030辆,李斌赢何小鹏“板上钉钉”

2018/12/4 18:21:01

23、好未来发布教育开放平台,战略转型意图凸显

2018/12/4 18:17:57

24、风口上的虹软 犀利的掌舵人

2018/12/4 17:20:09

25、一站式智能出行解决方案A+Box背后,高德如何致力发展智能地图?

2018/12/4 16:55:05

26、与AI大牛面对面:人工智能机器人,助手还是终结者? 活动报名

2018/12/4 16:27:46

27、平安科技AI生态步入爆发期,合作入口全面开启

2018/12/4 14:06:55

28、Wi-Fi 6将至,无线通信的下一波浪潮指向哪里?

2018/12/4 5:27:08

29、室内没有GPS信号,要怎么精确导航?

2018/12/4 0:51:56

30、DeepMind 团队 CASP 夺冠:用 AlphaFold 预测蛋白质结构

2018/12/3 22:51:05

31、陆金所获最新融资13亿美元,距IPO还有多远?

2018/12/3 21:51:34

32、苹果明年回归屏下指纹?

2018/12/3 21:20:44

33、安智汽车发布国内首个黑夜+烟雾工况AEB系统功能(附路测视频)

2018/12/3 20:47:48

34、成立12年的广汽研究院:新一轮产业升级进行时,如何打一场进击之战?

2018/12/3 20:21:45

35、全球首款,希捷宣布成功研发出 3.5 英寸 16 TB 企业级硬盘

2018/12/3 19:45:33

36、笃定公有云未来的金山云 为何在此时大推专有云能力?

2018/12/3 18:16:47

37、每个孩子,都值得拥有独特人生

2018/12/3 13:08:16

38、不用激光雷达,Starsky Robotics能凭摄像头玩转自动驾驶吗?

2018/12/2 22:22:45

39、人脸识别技术获权威评测肯定!云知声 AI 全栈能力再下一城

2018/12/2 22:22:44

40、当AI之光照射汽车业:真功能与蹭热度的2018年

2018/12/1 13:18:31

41、AI行业1000+投研领袖中心即将诞生 3天后揭晓

2018/12/1 0:04:50

42、吴恩达团队最新成果:利用MRNet进行膝关节磁共振成像异常诊断

2018/11/30 23:09:26

43、意法半导体推出STM32WB,欲扩张物联网市场

2018/11/30 21:01:49

44、李易峰代言创维,商业价值有多大?

2018/11/30 20:31:37

45、国产的SP光刻机到底牛在哪儿?

2018/11/30 18:03:44

46、亚马逊CTO宣布无服务器Lambda重大更新 AWS越来越“取悦”开发者了 re:Invent

2018/11/30 17:35:02

47、Live回顾:星舆科技,用“网-端-云”精准时空体系打造精准位置感知

2018/11/30 17:28:20

48、蔚来ES6将于12月发布 明年6月向用户交付量产车

2018/11/30 16:57:42

49、拿下全国首张营运货车自动驾驶路测牌照,智加科技加速打造安全无人重卡车队

2018/11/30 13:36:34

50、贾跃亭难撼许家印 紧急仲裁员全面驳回Smart King剥夺资产抵押申请

2018/11/30 11:59:37