设为首页 - 加入收藏
广告 1000x90
您的当前位置:E乐彩票app下载 > 博弈树搜索 > 正文

人类应该要有危机感!机器人会输吗?

来源:未知 编辑:admin 时间:2019-04-06

  这是一款叫做阿尔法狗(AlphaGo) 的电脑程序,他以5:0击败过欧洲围棋冠军樊麾,在3月9日开始的与世界顶级围棋选手之一南韩的李世石(九段)的五番棋对弈的首两番棋中胜出。当第一番棋结束后,看到对赛果表示惊讶的李世石时,人类世界炸开了,我想人类的反应一定是五味杂陈的,不知应该高兴呢还是应该伤感?二比零后,有些人觉得来自人工智能的危险接近了,预测不用多少年,人工智能就可以取代人类。先不谈人工智能到底有啥危险,让我们来探讨一下阿尔法狗有啥招数以及谷歌深思(DeepMind)团队是如何做到这些的。

  深思团队用深度学习方法训练两种深度网络用以武装这个围棋程序:策略网络(policy network)和价值网络(value network)。听来有点耳熟,特别是价值网络,世界象棋机器好手“深蓝”在博弈树搜索中用所谓价值估计法决定出棋。在棋类程序中,博弈树搜索是不二法门,差别只是搜索的深度以及如何剪枝以减少搜索的盘面。“深蓝”使用基于阿尔法-贝塔剪枝的最小最大博弈树搜索办法。国际象棋的搜索宽度是35左右,一局棋大概有80步左右,如果从开局看到结局,那就是天文数字的35的80次方。“深蓝”借助专门的众多搜索硬件处理器及多处理器勉强搜索至12步左右,刚好可以击败国际象棋世界冠军。那么围棋呢?它的搜索宽度大概是250,一局棋有大约150步,围棋全局搜索的复杂度是1.73乘以10的686次方,远超宇宙中的原子总数(看出来了吧,棋盘就是一个小宇宙)。哪怕只进行浅层搜索,也是不太现实的,围棋的另一个难点是不存在一个可靠的盘面价值估计函数,所以传统的最小最大博弈树搜索方法并不可行。

  阿尔法狗用一个深度网络(价值网络)来进行盘面估计,用另一个深度网络(策略网络)来决定候选下子方法以降低搜索的宽度。在监督学习阶段,十三层的策略网络用KGS围棋服务器里的三千万专家盘面(状态及其特征作为输入)和下子(输出)的数据进行训练。实验发现只用19x19的状态和下子历史信息作为输入,该网络可以取得55.7%的测试精度。该网络需要3毫秒的时间进行选择,虽然看起来不长,但由于在进行蒙特卡洛树搜索时,要一直用策略网络选择下子方法,这个时间是太长了。为此,深思团队训练了另一个用于这个目的只用简单特征为输入的快速策略网络,该网络虽然只取得24.2%的测试精度,但用时只需2微秒。最后版本的阿尔法狗用40个搜索线程(软件的并行处理方法),在硬件方面,用了48个中央处理器及8个图形处理器来进行计算(搜索)。

  团队除了用专家数据库来训练策略网络外,还通过机器之间的比赛来对策略网络进行强化学习,这个比较重要,因为这种强化学习是以模拟交战赢取比赛为目的的,随着不断的强化学习,该网络的功劳能就更如強大。价值网络是通过基于强化策略网络与其自身进行的比赛来学会预测谁会得胜的。这句话很绕,是吗?没错,实际上阿尔法围棋的程序就更绕了,因为它在进行博弈树的蒙地卡洛树搜索时使用快速策略网络和价值网络。价值网络与策略网络有相似的结构,不同的是输出,它只预测赢面值,不像策略网络预测当前盘面每一下子法的赢面概率。

  下面再探讨一下蒙特卡洛树搜索法。蒙特卡洛是个地名没错,是摩纳哥大公国(实际上很小)的一个城市,以赌场及网球大师赛出名(有个知名拉力赛虽然以该地名命名但在法国进行)。蒙特卡罗方法是一种基于随机采样以得到数值解的计算方法。举一个简单计算圆周率的例子说明一下。下图是一个正方形里包括四分之一圆形,圆形部分的面积与正方形的面积之比是四分之一的圆周率。

  假设我们在正方形里产生一堆随机数(比如一千个),看看有多少是落在四分之一圆形面里(这个数学上好处理),就能估计出圆周率,随机数越多,估计的精度越高。如果祖沖之知道你们这班家伙通过随机扔数的方法计算圆周率一定会气得要命。

  那么蒙特卡洛树搜索就是从某个节点开始,机器与机器随机下棋至结束,通过记录赢棋的比例来决定下一个下子法,当然,这种随机比赛要足够多才能较为准确地评估每一步棋的好坏。根据统计结果,找一个最佳的下子方法。蒙特卡洛树搜索是减少搜索空间的关键。在阿尔法狗的程序中,进行蒙特卡罗树搜索时,使用了快速策略网络及价值网络。在与欧洲围棋冠军樊麾的比赛中,阿尔法狗的平均搜索盘面数目是“深蓝”的几千份之一,从一个侧面说明策略网络、价值网络及蒙特卡罗树搜索相结合的方法工作得挺好。许多围棋高手都认为阿尔法狗的棋风与人类接近,但应该与每一个具体的棋手都不一样。

  技术的事就说这些。现在探讨一下方法论与哲学的问题。首先,电脑可以看到所有数字化的棋谱并向赢者学习。人类虽然也能接触到这些,但哪怕不睡觉及脑袋特别大,也没有精力及能力消化这些,更不要说人类棋手要吃饭、睡觉、恋爱、结婚、生子等等。在这一点上,人类棋手完输电脑。这种学习的区别让电脑训练成都不像的全能型棋手,集各门各派的所长,有时让人类棋手感觉它不按套路出棋(这正好是电脑的优势所在),就比如说该用剑时偏用棍子,打你个措手不及,人类棋手不被打晕都难。人机大战时,看出来李世石有时有晕菜的感觉。人类棋手一般会根据对手的技战术及风格进行准备,找到应对的办法。由于电脑棋手的全不像,人类棋手无从准备,只能见机行事。电脑的另外一个强处是程序和程序可以没日没夜地比赛并可以根据对弈结果,优化网络里的参数,这点人类棋手也比不上。电脑在情绪表现和应对上比较淡定(没法不淡定),反正哪怕天塌下来,它眼不眨、心不跳(时钟应该不算心跳),不像人类棋手有那么多的想法,这也许是电脑相比人类棋手的第三个优势。

  这款围棋程序叫阿尔法是有伏笔的,未来还会有贝塔、伽玛、得尔塔等围棋机器,非把人类围棋手逼上绝路不可。

  说了这么多,好像人类棋手一无是处。实际上,人类棋手的直觉、灵机一动及个人经验有些优势,另外人类除了下棋,还可干很多事情,比如烧菜及谈情说爱,叫阿尔法狗干这些,只能抓瞎。李世石输了围墙比赛,没啥不得了的,最多不玩围棋了,干啥不行!想想阿尔法狗如果不玩围棋了,它啥也不是。哪怕阿尔法狗一辈子玩围棋,想想天天算计(计算),大部分时间是左手和右手玩棋,赢和输都一样毫无表情,这种生活(如果它有生活的话)实在是无聊透顶的。

  目前的人工智能说穿了实际上还是计算,虽然通过学习的方法可以模仿人类的技巧及能力。通过“深蓝”及阿尔法狗的表现,我们看到让机器做一件有固定规则的事,比如下棋及游戏,它是可以击败人类的,不过仅此而已。试想让机器学习中国的“厚黑学”,估计你怎么训练它,它的成就也不会超过和珅的。

  哪怕这次阿尔法狗完胜李世石,人类也不要妄自菲薄,如果机器善于下围棋,就让它下好了,反正下围棋经常会缺氧,并不是一个好的运动,至于说下围棋能锻炼脑力估计也是没有边的事情。

本文链接:http://mzi-ads.com/boyishusousuo/185.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top