本篇文章3710字,读完约9分钟

注:本文作者徐铁,毕业于巴黎师范大学、以色列理工大学(85%以色列科技企业家的摇篮,计算机科学世界闻名),物理学硕士学位,巡洋舰科技有限公司创始人,在香港浸会大学非线性科学中心工作一年。长期以来备受争议的阿尔法狗其实蕴含着深刻的机器学习智慧。它是学习机器学习甚至人类决策的优秀教材。机器学习是阿尔法戈成功的关键。为什么它发挥了巨大的作用?请见下文。理解一门科学技术的最好方法是找出它的核心论文。让我们看看阿尔法狗的核心论文如何解释这个问题。如果你处于这样的位置,如何设计这个游戏。如果你了解象棋游戏和电脑游戏的历史,你就会非常清楚老程序员的套路,你就会知道解决这类问题最简单的方法就是穷举法。例如,著名的八皇后问题,你需要把八个皇后放在棋盘上,但它们并不位于彼此的纵线、水平线或对角线上。你只需要按照一定的方法做一个循环,从第一行遍历到下一行。当你遇到你打不开它们的情况时,照片:八皇后,这就足够让你筋疲力尽和退缩了。八个女人安排类似的方法并不难。稍加改进就能很好地解决围棋问题,但要解决围棋问题却很难。为什么?众所周知,围棋的规模太大了,每次它落下时都有数百种可能性(棋盘的大小是19*19)。想象一下,如果你想在数百步后赢或输一盘棋,你有多少种可能性,这是任何接近穷举方法的算法都很难解决的。这是如何有效减少搜索空.的核心问题这就是为什么玩围棋的问题需要机器学习,因为机器学习允许你通过有限的数据猜测所有其他的可能性(类似于插值过程)。事实上,决策的核心是如何减少搜索空.的问题虽然生活的可能性在某种程度上是无限的,但你甚至不会考虑其中的大部分,比如移民到朝鲜或在孟加拉国卖香蕉。我们人类用愚蠢、聪明、合理和不合理来描述各种选择的优缺点,大脑会自动屏蔽大多数不合理的解释。你是怎么得到这些答案的?第一个是如何通过一年到头的反复试验来计算每个行为的结果。一旦被蛇咬了,十年怕绳子。另一种是读书,与大师交谈,直接学习他们的经验。相反,这是机器学习的原则。首先,我们谈论试错学习,或根据特定行为的最终结果调整行为策略的方法,我们通常称之为强化学习。强化学习通常是通过上述框图来实现的,也就是说,智能体会根据环境给予的奖励来调整反馈系统的动作,最终实现收益最大化。难点在于代理人的行为通常会改变环境,而环境又会影响行为策略。具体到围棋,这一战略的核心是基于围棋的特点:1 .双方的信息在每一步都是完全已知的

2.每一步的策略只需要考虑这一步的状态,这就允许机器学习用一个非常激烈的简化框架——马尔可夫决策过程来解决这个问题。也就是说,我们用一个离散时间序列来描述状态S,用另一个离散时间序列来描述行为a。这两个时间序列有着深刻的耦合关系。下一个状态s(t+1)取决于此时的行为a(t)和状态s(t),并最终决定下一个时刻的行为a(t+1)之间的关系,即策略P(a(t)| S(1)。所有种类的象棋都是最明显的马链。由于未来的不确定性,策略本身就是一种概率分布函数的形式。最后,我们需要优化p(s|a)并获得最大回报r(s)。马尔可夫决策过程是解决不确定未来状态和马尔可夫行为的一种非常有利的方法。求解马尔可夫决策过程的一种简单、实用和粗糙的算法叫做蒙特卡罗树搜索(mcts)。图:蒙特卡罗树及其四个步骤,选择、扩展、模拟评估和结果返回,对应于一个经典的强化学习框架。说到蒙特卡罗,这是一种著名的随机抽样方法。所谓的树,你可以想到一个决策树,树的节点是某个时刻的状态,而分支代表一个决策,这里的蒙特卡罗树是通过随机抽样生成整个决策树的过程。假设计算机的当前状态是s(t),那么你随机扔一个筛子,然后被计算机模拟的对手也随机扔一个筛子。这样,总会有输赢的时刻。此时,您可以回顾历史上赢家和输家的博弈轨迹,赢家的棋步会给整个决策树中的每个状态(树枝和树叶)增加一个点,而输家的棋步每走一步都会损失一个点。这个分数将影响下一次抽样的概率。最后,反复玩电脑和电脑后,你会选择一个特别容易赢的策略。这个过程类似于进化选择算法,即让那些具有优势的选择有更高的几率繁殖后代,并最终获胜,这体现了生物与环境之间的博弈。注意:这里有一个小问题。马尔可夫的决策过程非常强大。在实际的决策过程中,很难看到现在你想去哪所大学,想选择哪只股票。这个框架还能使用多少?以蒙特卡洛树为代表的强化学习只能部分减少搜索空,这使得计算机达到了高级业余玩家的水平。如果我们想进一步减少对空的搜索,我们应该怎么做?此时,我们可以回顾过去,认为人类减少空刚才提到的搜索次数的一个重要方法是学习大师的经验。是的,是的,记住国际象棋的分数,多读书,有一种敏锐的直觉能想出妙招。翻译成数学语言就是在某种情况下,在任何策略和最终获胜率之间找到对应关系,即使你以前从未见过这种情况。注意:这里要小心。我们经常觉得直觉似乎是从天而降的异常,但事实上恰恰相反。直觉是最重要的学习。让机器来做,这就是有监督学习的返回算法。你必须提取象棋游戏的特征,并计算每一步对应的概率p(a(t)|s(t))。然而,围棋的特点太复杂了。如果你来到一个线性回归或knn,你会死得很惨。这时,我们的深入学习开始派上用场。它可以自发地学习事物的表征。图中,机器学习训练的目标由梯度反馈训练网络连接,即数据被观察的概率最大化。所谓最大似然,对于神经网络来说,就是网络连接参数的调整。在深入学习的过程中,就像我们看到了更多的东西一样,我们自然而然地开始有能力从别人那里得出推论,这可以称为在战略选择中加入直觉。此时,你可以通过有限的经验把握无限。在训练过程中,阿尔法戈不断预测专家们可能根据现有情况玩的把戏。经过3000万组数据的训练,深度学习可以达到55.7%的预测率。这个概率表明人类的意图不难猜测,这就是为什么人们说和阿尔法戈下棋就像和无数高手玩把戏。当然,这不是训练的结束。这里的神经网络只描述大师的动作,然后我们希望他赢,就像在实践中理解和优化大师的技能一样。这是训练的第二步,用强化学习的方法训练网络连接系数。具体的方法是让现有的策略网络和随机选择的一个先前的策略网络互相左打右打,然后将结果返回给每一步的策略进行梯度训练。在这个过程之后,策略网络在描述各种大师的时候会失去一些中级的狂热者级别的算法和它以前的状态。图:战略网络思维,计算概率训练的最后一步是评估网络。我们来谈谈估值网络在这里做什么。首先,在强化学习框架下,你需要知道每个行为对应的特定回报。困难在于玩完围棋后的明确回报。想一想“前进”步骤中的无限可能性以及获得结果的可能步骤的数量是令人生畏的。深度学习算法在这里的作用是在没有完成这一步的情况下,巧妙地估计对应于这一步的利润预期。评估网络的本质是在现有行为和长期利益之间建立联系。有人称之为观察趋势和整体情况。要训练这样一个网络来计算回报,请往下看。公式:训练要解决的问题,以及在状态S下采用策略P的最终效益的期望图:评估网络的效果图,数字就是回报,那么问题来了,蒙特卡洛树和深度学习如何无缝结合?这是整个alphago设计中最巧妙的部分:首先,你应该记住mcts的框架。首先,MCT可以被分解成四个步骤:第一,选择,从现有的选项中取样(有经验的),第二,扩展,到一个从未经历过的情况,探索新的行为,即产生新的分支,第三,评估,并获得新行为的回报,第四。深入学习的结果可以完美地嵌入蒙特卡罗搜索步骤。首先,在扩展步骤中,我们不需要从零开始随机生成一个前所未有的状态,而是直接用根据以往经验训练的策略网络生成一个新的状态,大大减少了无用的搜索。然后,在评估的步骤中,我们可以通过深度学习的结果直接计算出这种新姿态可能的长期回报(在这里,评估网络的巨大作用,所谓的一步一步看n长时间后的影响),这个计算出的回报将与实际练习的结果相结合,在最终游戏结束时完成学习步骤。图:如何将深度学习嵌入蒙特卡洛树搜索不同于击败象棋大师的深蓝。机器学习在阿尔法围棋中扮演着重要的角色,因为阿尔法围棋的策略和智力主要是通过不断观察棋谱和左右对弈来进化的。对于像围棋这样规则复杂的东西,设计一套获胜规则是不可能的,只有机器学习(强化学习)和自我改进思想的进化才是最终的获胜工具。这也是阿尔法戈的技术对其他人工智能很有启发性的原因。从上面的分析,事实上,训练阿尔法戈的算法并不是很复杂。用一句话来概括,那就是试图在巨人的肩膀上快速地犯错误。这也是做出各种人生决定的最佳方式。你说你想过独特的生活,不模仿任何人。你可能是一个撞南墙的傻X。你说你想看最优秀的精英追随。你可以一辈子重复别人的生活。牛x显然站在巨人的肩膀上,描述了3000万精英的步法,深入总结了他们的规则,然后改变了他们的动作。然而,我们人类没有太多的时间来完成模拟,也没有太多的图形处理器来执行并行操作,所以我们实际上在寻找一个低搜索成本的近似解,这被称为次优解。欢迎关注cruiser机器学习对抗复杂系统系列的后续——电网设计中强化学习的一个例子雷锋。注:本文由徐铁发布-混沌巡洋舰授权雷锋。如需转载,请联系微信号562763765。

来源:罗盘报中文网

标题:阿尔法狗是怎么用机器学习做决策的

地址:http://www.lzn4.com/lpbxw/11445.html