人工智能介绍模板.pptx

上传人:精*** 文档编号:863104 上传时间:2023-09-25 格式:PPTX 页数:71 大小:6.03MB
下载 相关 举报
人工智能介绍模板.pptx_第1页
第1页 / 共71页
人工智能介绍模板.pptx_第2页
第2页 / 共71页
人工智能介绍模板.pptx_第3页
第3页 / 共71页
人工智能介绍模板.pptx_第4页
第4页 / 共71页
人工智能介绍模板.pptx_第5页
第5页 / 共71页
点击查看更多>>
资源描述

1、人工智能技术介绍人工智能技术介绍人工智能技术介绍人工智能技术介绍PPTPPTPPTPPT人工智能技术概述第一节深度学习与国际象棋第二节智能问答第三节深度学习与智能围棋第四节更多人机交互大战第三节目录 contentcontent人工智能技术概述第一节自动化技术发展趋势自动化自动化技术技术自动化技术是一门涉及学科较多、应用广泛的综合性系统工程,其对象为大规模、复杂的工程和非工程系统广义内涵包括三方面的含义:代替人体力劳动的机器人;代替或辅助人脑力劳动的程序;对人机进行协调、管理、控制和优化的智能系统研究内容包括自动控制和信息处理两方面,应用包括过程自动化、机械制造自动化、管理自动化和家庭自动化等

2、不断提高传统行业的技术水平和市场竞争力,并与光电子、计算机、信息技术等融合和创新,不断创造和形成新的经济增长点和管理战略哲理智能科学发展趋势智能智能科学科学智能属于哲学问题,智能科学研究智能的本质和实现技术,是由脑科学、认知科学、人工智能等综合形成的交叉学科脑科学从分子水平、神经回路、行为实验研究自然智能机理,目的在于阐明人类大脑的结构与功能,以及人类行为与心理活动的物质基础认知科学是研究人类感知、学习、记忆、思维、意识等人脑心智活动过程的科学,是心理学、信息学、神经科学和自然哲学的交叉人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学自动化自动化技

3、术技术智能科学智能科学人工智能人工智能技术技术 在科学发展过程中,在那些已经建立起来的学科之间,在科学发展过程中,在那些已经建立起来的学科之间,还存在着一些被人忽视的无人区,正是从这些领域里可能还存在着一些被人忽视的无人区,正是从这些领域里可能得到最大的收获。得到最大的收获。诺伯特诺伯特维纳维纳控制论控制论,19481948人工智能技术的挑战人人人人-信息信息信息信息人人人人-机器机器机器机器人人人人-环境环境环境环境科技进步改变着我们的生活,但却使人们在信息、机器高度密集的环境中,变得更为被动和无奈。信息越来越多,甚至成为垃圾,对信息的有效组织和挖掘极度匮乏,人与信息的共生环境尚未建立。简单

4、的体力劳动已可以被机器所替代,但脑力劳动,特别是智力尚未完全转移和扩展到机器上。需要更好地尊重、理解并满足人的各种需要,以人为本,促进人与物理时空环境的和谐发展。人工智能技术发展的特征人工智能由人类设计,为人类服务,本质为计算,基础为数据。必须体现服务人类的特点,而不应该伤害人类,特别是不应该有目的性地做出伤害人类的行为。以人为本以人为本人工智能技术发展的特征环境增强环境增强人工智能能感知环境,能产生反应,能与人交互,能与人互补。能够帮助人类做人类不擅长、不喜欢但机器能够完成的工作,而人类则适合于去做更需要创造性、洞察力、想象力的工作。人工智能技术发展的特征学习适应学习适应人工智能有适应特性,

5、有学习能力,有演化迭代,有连接扩展。人工智能可以应对不断变化的现实环境,从而使人工智能系统在各行各业产生丰富的应用。人机博弈 棋类游戏是人类智慧的结晶,自古以来就有着广泛的爱好者群体,也产生了一代又一代的偶像级棋王。选择棋类游戏作为人工智能研究的对象,不仅是因为棋类游戏规则清晰,胜负判断一目了然,而且也更容易在爱好者群体中产生共鸣,因此人工智能研究者前赴后继投身到对不同棋类游戏的挑战中。互动环节:人机小挑战机器学习之父 机器博弈的水平实际上代表了当时计算机体系架构与计算机科学的最高水平。早在1962年,就职于IBM的阿瑟萨缪尔就在内存仅为32k的IBM 7090晶体管计算机上开发出了西洋跳棋(

6、Checkers)AI程序,并击败了当时全美最强的西洋棋选手之一的罗伯特尼雷,引起了轰动。值得一提的是,萨缪尔所研制的下棋程序是世界上第一个有自主学习功能的游戏程序,因此他也被后人称之为“机器学习之父”。阿瑟萨缪尔里程碑事件 1997年IBM公司“更深的蓝更深的蓝”(Deeper Blue)战胜世界国际象棋棋王卡斯帕罗夫,这是基于知识规则引擎和强大计算机硬件的人工智能系统的胜利2011年IBM公司的问答机器人“沃森沃森”在美国智力问答竞赛节目中大胜人类冠军,这是基于自然语言理解和知识图谱的人工智能系统的胜利2016年谷歌公司AlphaGo战胜了围棋世界冠军李世石,2017年初AlphaGo升级

7、版Master横扫全球60位顶尖高手,这是基于蒙特卡洛树搜索和深度学习的人工智能系统的胜利真正引起中国人广泛关注的机器博弈史上三个里程碑事件是:PART2深度学习与国际象棋机器学习人机对抗历史深蓝成功秘诀国际象棋 国际象棋起源于亚洲,后由阿拉伯人传入欧洲,成为国际通行棋种,也是一项受到广泛喜爱的智力竞技运动,据称全世界有多达三亿的国际象棋爱好者,甚至在1924年曾一度被列为奥林匹克运动会正式比赛项目。国际象棋棋盘由横纵各8格、颜色一深一浅交错排列的64个小方格组成,棋子共32个,分为黑白两方,每方各16个。和88的西洋跳棋Checkers相比,国际象棋的状态复杂度(指从初始局面出发,产生的所有

8、合法局面的总和)从1021上升到1046,博弈树复杂度(指从初始局面开始,其最小搜索树的所有叶子节点的总和)也从1031上升到10123。19581973198319871988198919911993人机对抗历史从1958年开始,人工智能研究者对国际象棋的挑战持续了半个多世纪:1958年名为“思考”IBM704成为第一台能同人下国际象棋的计算机,处理速度每秒200步;1973年B.Slate和Atkin开发了国际象棋软件“CHESS4.0”,成为未来国际象棋AI程序基础;1983年,Ken Thompson开发了国际象棋硬件“BELLE”,达到大师水平;1987年,美国卡内基梅隆大学设计的国

9、际象棋计算机程序“深思”(Deep Thought)以每秒钟75万步的处理速度露面,其水平相当于拥有2450国际等级分的棋手;1988年,“深思”击败丹麦特级大师拉 尔森;1989年,“深思”已经有6台信息处理器,每秒处理速度达到200万步,但还是在与世界棋王卡斯帕罗夫的人机大战中以0比2败北;1991年,由CHESSBASE公司研制的国际象棋计算机程序“弗里茨”(Fretz)问世;1993年,“深思”二代击败了丹麦国家队,并在与前女子世界冠军小波尔加的对抗中获胜。深蓝一战卡斯帕罗夫 1995年,IBM公司设计了全球第一台采用并行化系统、以RS/6000SP为基础、集成了总计256块处理器以及

10、480颗专门为国际象棋对弈设计的VLSI加速芯片的国际象棋计算机“深蓝”,重达1270公斤。1996年2月10日至17日,为了纪念首台通用计算机ENIAC诞生50周年,“深蓝”在美国费城向国际象棋世界冠军、世界排名第一的加里卡斯帕罗夫发起了挑战。在6局的人机对弈比赛中,“深蓝”并未占到什么便宜,棋王卡斯帕罗夫以4比2的总比分轻松获胜,但“深蓝”赢得了六场比赛中的一场胜利,这也是计算机第一次在与顶级选手的对弈中取得胜局。“深蓝”升级改造 第一次对决落败之后,IBM对“深蓝”计算机进行了升级,97型深蓝取名“更深的蓝”(Deeper Blue)。团队还丰富了象棋加速芯片中的象棋知识,使它能够识别不

11、同的棋局,并从众多可能性中找出最佳行棋方案。“更深的蓝”每秒可检索1亿到2亿个棋局,系统能够搜寻和估算出当前局面往后的12步行棋方案,最多可达20步,而人类棋手的极限是10步。即使按照一盘棋平均走80步,每步棋可能的落子位置为35个计算,其状态复杂度和博弈树复杂度也远非超级计算机所能穷举,为了在合理的时间内完成走棋任务,必须要进行剪枝搜索。运算能力运算能力运算能力运算能力“更深的蓝”(Deeper Blue)运算速度为每秒2亿步棋,计算能力为每秒113.8亿次浮点运算,是1996年版本的2倍,其运算能力在当时的全球超级计算机中也能排在第259位。剪枝搜索剪枝搜索剪枝搜索剪枝搜索象棋知识象棋知识

12、象棋知识象棋知识“更深的蓝”出师告捷 1997年5月,IBM公司再次邀请加里卡斯帕罗夫到美国纽约曼哈顿进行第二次人机大战,同样是6盘棋制比赛。在前5局里,卡斯帕罗夫为了避免在计算力方面用人脑与“更深的蓝”进行直接较量,他采取了独特的行棋策略来对付“更深的蓝”,但是这个奇招并没有取得明显的效果,“更深的蓝”总是能够凭借准确无误的局面判断和精确的计算给出最强的应手。最终前五局双方2.5对2.5打平,尤其是第三、第四、第五局连续三场和局,卡斯帕罗夫的助手看见他坐在房间的角落里,双手捂面,仿佛已经失去了斗志。在最后一局中,卡斯帕罗夫失去耐心,回到了“正常”的下法,在第七回合就犯了一个不可挽回的低级错误

13、,局势急转直下,最终在第六盘决胜局中仅仅走了19步就向“更深的蓝”俯首称臣。最终卡斯帕罗夫1胜2负3平,以2.5比3.5的总比分输给“更深的蓝”。“更深的蓝”赢得了这场备受世人瞩目的人机大战,也标志着国际象棋近2000年的发展历史走向了新时代。人机博弈胜负已明 “深蓝”并不是终结,卡斯帕罗夫也没有服气。1999年,“弗里茨”升级为“更弗里茨”(Deep Fritz),并在2001年击败了卡斯帕罗夫。当今国际象棋男子等级分排名最高的选手是出生于1990年的挪威特级大师卡尔森(Magnus Carlsen),他的等级分是2863分,而至少有10款开源国际象棋引擎等级分达到了3000分以上。人与机器

14、的国际象棋之争已胜负分明,国际象棋领域的人机博弈也画上了句号,取而代之的是2010年开始举办的机机博弈国际象棋引擎竞赛TCEC(Thoresen Chess Engine Competition)。加速芯片:“深蓝”的成功秘诀 “深蓝”计算机在硬件上将通用计算机处理器与象棋加速芯片相结合,采用混合决策的方法,即在通用处理器上执行运算分解任务,交给象棋加速芯片并行处理复杂的棋步自动推理,然后将推理得到的可能行棋方案结果返回通用处理器,最后由通用处理器决策出最终的行棋方案。97型深蓝与1996年相比,运算速度差不多提高了两倍,象棋加速芯片的升级功不可没。升级后的象棋加速芯片能够从棋局中抽取更多的特

15、征,并在有限的时间内计算出当前盘面往后12步甚至20步的行棋方案,从而让“深蓝”更准确地评估盘面整体局势。知识规则引擎:“深蓝”的成功秘诀 “深蓝”在软件设计上采用了超大规模知识库结合优化搜索的方法。一方面,“深蓝”存储了国际象棋100 多年来70万份国际特级大师的棋谱,利用知识库在开局和残局阶段节省处理时间并得出更合理的行棋方案。另一方面,“深蓝”采用Alpha-Beta剪枝搜索算法和基于规则的方法对棋局进行评价,通过缩小搜索空间的上界和下界提高搜索效率,同时根据棋子的重要程度、棋子的位置、棋子对的关系等特征对棋局进行更有效的评价。剪枝搜索算法示意图PART3智力问答Watson自然语言处理

16、知识图谱自主学习Watson认知计算系统平台问世 在“深蓝”之后,IBM公司又选择了一个新的领域挑战人类极限DeepQA,不仅仅把DeepQA项目看成一个问答游戏系统,而且将其称之为认知计算系统平台。认知计算被定义为一种全新的计算模式,它包含数据分析、自然语言处理和机器学习领域的大量技术创新,能够帮助人类从大量非结构化数据中找出有用的答案。IBM公司对其寄予厚望,并用公司创始人ThomasJWatson的名字将这个平台命名为Watson。如果说“深蓝”只是在做非常大规模的计算,是人类数学能力的体现,那么Watson就是将机器学习、大规模并行计算、语义处理等领域整合在一个体系架构下来理解人类自然

17、语言的尝试。Watson问答系统能力解析与用与用户进行交互,根据用行交互,根据用户问题通通过自然自然语言理解技言理解技术分析包括分析包括结构化数据和构化数据和图文、音文、音视频、图像等非像等非结构化所有构化所有类型的数据,型的数据,最最终实现用用户提出提出问题的有效的有效应答。答。通通过假假设生成,透生成,透过数据揭示洞察、模式和关系,将散落在各数据揭示洞察、模式和关系,将散落在各处的知的知识片段片段连接起来接起来进行推理、分析、行推理、分析、对比、比、归纳、总结和和论证,从而从而获取深入的理解和决策的取深入的理解和决策的证据。据。理解理解(Understanding)通通过以以证据据为基基础

18、的学的学习能力,从大数据中快速提取关能力,从大数据中快速提取关键信息,信息,像人像人类一一样学学习和和记忆这些知些知识,并可以通,并可以通过专家家训练,在不断,在不断与人的交互中通与人的交互中通过经验学学习来来获取反取反馈,优化模型。化模型。推理(推理(Reasoning)通通过精精细的个性化分析能力,的个性化分析能力,获得用得用户的的语义、情、情绪等信息,等信息,进一步利用文本分析与心理一步利用文本分析与心理语言学模型言学模型对海量数据海量数据进行深入分析,行深入分析,掌握用掌握用户个性特个性特质,构建全方位用,构建全方位用户画像,画像,实现更加自然的互更加自然的互动交流。交流。学学习(Le

19、arning)交互交互(interacting)Watson研发团队全面备战 IBM公司调动其全球研发团队参与到DeepQA项目中,这些团队分工极为细致,让它的各个团队都发挥出最大的效率,目标就是在2011年的综艺节目危险边缘(Quiz Show Jeopardy!)中一鸣惊人。问答搜索:以色列海法团队负责深度开放域问答系统工程的搜索;词语连接:日本东京团队负责在问答中将词意和词语连接;数据支持:中国北京和上海团队则负责以不同的资源给Watson提供数据支持 算法研究:此外还有专门研究算法的团队和研究博弈下注策略的团队等。团队分工分工算法算法研究研究数据数据支持支持词语连接接问答答搜索搜索 W

20、atson包括90台IBM小型机服务器、360个Power 750系列处理器以及IBM研发的DeepQA系统。Power 750系列处理器是当时RISC(精简指令集计算机)架构中最强的处理器,可以支持Watson在不超过3秒钟的时间内得出可靠答案。1.摄像头拍照,OCR识别文字,得到文字文本。2.提取专有名词基本信息,为其打上分类标签。7.语音合成引擎将答案文本转换成语音并播放出来,完成回答。3.提取文字结构信息,减少冗余搜索。4.逐级分解每个问题,直到获得所有子问题的答案。5.在自身知识图谱中搜索并汇集特定实体的属性信息,实现实体属性完整勾画。6.运用算法评估可能答案,可信度最高且超过51%

21、,执行器按下信号灯。文字文字识别实体抽取体抽取关系抽取关系抽取问题分析分析答案生成答案生成判断决策判断决策回答回答问题 Watson的工作过程 Watson挑战成功 最终比分成绩为Watson:$77147,Jennings:$24000,Rutter:$21600,比赛尘埃落定,人类已经和Watson相距太远。2011年2月14日-16日,做好一切准备的Watson开始了与人类的对决。Watson在第一轮中就奠定了领先地位,但在比赛中出现了几个糟糕的回答。比如一个美国城市类的问题,Watson的答案为多伦多。这道题的回答让人大跌眼镜,主要原因是Watson没有为答案设置边缘条件。另一道回答奥

22、利奥饼干是什么时候被推出的时候,几秒前人类选手Jennings回答相同问题时刚被告知“20年”错了,Watson还是继续回答“1920年”。这是因为研究团队为了简化Watson的编程,让它对其他玩家的回答“装聋作哑”,结果吃了大亏。Watson进入商业化运营阶段 如今,Watson已经被运用到超过35个国家的17个产业领域,超过7.7万名开发者参与到Watson Developer Cloud平台来实施他们的商业梦想,Watson API的月调用量也已高达13亿次,并仍在增长。借着这次Watson人机大战的风头,2012年IBM公司的小型机占据了全球将近2/3的市场份额,Watson也于201

23、3年开始进入商业化运营,陆续推出的相关产品:Watson相关相关产品品Watson发现顾问(Watson Discovery Advisor)Watson参与参与顾问(Watson Engagement Advisor)Watson分析分析(Watson Analytics)Watson探索探索(Watson Explorer)Watson知知识工作室工作室(Watson Knowledge Studio)Watson肿瘤瘤治治疗(Watson for Oncology)Watson临床床试验匹配匹配(Watson for Clinical Trial Matching)Watson成功秘诀:

24、自然语言处理 “Jeopardy!”这类问答类节目,对于人类而言规则很简单,但是对于Watson则意味着众多挑战。它不仅要理解主持人提问的自然语言,还需要分析这些语言是否包含讽刺、双关、修饰等,以正确判断题目的意思,并评估各种答案的可能性,给出最后的选择。自然语言处理研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是计算机科学与人工智能研究中的重要方向之一。自然语言处理技术广泛应用 Watson的成功得益于自然语言处理技术多年的积累,同样也带动了这个领域进入了一个更加快速的发展阶段:2011年10月苹果公司在发布新品时集成Siri智能语音助手,把聊天问答系统带入了成熟商业化阶段;

25、2013年谷歌公司开源Word2Vec引爆深度学习这个新的热点,机器翻译、文档摘要、关系抽取等任务不断取得重要进展,从此人工智能走向第三次高潮。苹果Siri智能语音助手谷歌公司开源Word2Vec Watson成功秘诀:知识图谱 知识图谱本质上是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱中,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。可以说,知识图谱就是把异构信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。2012年谷歌公司推出知识图谱搜索服务,国内互联网公司百度和搜狗也分别推出“知心”和“知立方”来改进其

26、搜索质量。在搜索引擎中引入知识图谱大幅的地提升和优化了搜索体验。谷歌改进知识图谱谷歌改进知识图谱 添加比较及过滤等新功能添加比较及过滤等新功能 知识图谱的广泛应用 知识图谱也被广泛应用于聊天机器人和问答系统中,用于辅助深度理解人类的语言和支持推理,并提升人机问答的用户体验。此外,在金融、农业、电商、医疗健康、环境保护等垂直领域,知识图谱同样得到了广泛的应用。知识图谱问答系统金融农业电商医疗健康环保PART4围棋AlphaGo机器学习蒙特卡洛树搜索深度学习 围棋复杂度增加 8*8格国际象棋的状态复杂度为1046,博弈树复杂度为10123。19*19格的围棋,其状态复杂度已上升到10172,博弈树

27、复杂度则达到惊人的10360,因此也被视为人类在棋类人机对抗中最后的堡垒。国际象棋国际象棋围棋围棋人机对抗的尝试与探索 在很长一段时间里,静态方法成了主流研究方向,中山大学化学系教授陈志行开发的围棋博弈程序“手谈”和开源软件GNU GO在2003年以前能够在9*9围棋中达到人类5-7级水平。2006年S.Gelly等人提出的UCT算法(Upper Confidence Bound Apply to Tree,上限置信区间算法),该算法在蒙特卡洛树搜索中使用UCB公式解决了探索和利用的平衡,并采用随机模拟对围棋局面进行评价。该程序的胜率竟然比先前最先进的蒙特卡罗扩展算法高出了几乎一倍,但它也仅能

28、在9路围棋中偶尔战胜人类职业棋手,在19路围棋中还远远不能与人类抗衡。静静态方法方法UCT算法算法陈志行陈志行手谈手谈 AlphaGo横空出世 这是围棋历史上一次史无前例的突破,人工智能程序能在不让子的情况下,第一次在完整的围棋竞技中击败专业选手。AlphaGo大战樊麾 2016年D.Silver等人在世界顶级科学杂志Nature发表文章,称被谷歌公司收购的DeepMind团队开发出AlphaGo在没有任何让子情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。AlphaGo系统简介该系系统通通过对16万局人局人类高手棋高手棋谱中的中的3000万手手盘面面进行行监督学督学习和和强化学化学习;使

29、用使用策略网络和估值网络实现落子决策和局落子决策和局势评估;估;监督、督、强化学化学习通通过与与蒙特卡洛树搜索算法结合,极大地改善了搜索决策合,极大地改善了搜索决策的的质量;量;策略、价策略、价值网网络提出提出异步分布式并行算法,使其可运行于,使其可运行于CPU/GPU集群上。集群上。蒙特卡洛算法蒙特卡洛算法 异步分布并行算法异步分布并行算法系统系统 AlphaGo所向披靡 2016年3月AlphaGo与李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,它以Master为帐号与中日韩数十位围棋高手快棋对决,连续60局全胜。2017年5月在中国乌镇围棋峰会上,它与柯洁对战,

30、以3比0的总比分获胜。围棋界公认AlphaGo的棋力已经超过人类职业围棋顶尖水平,其最新版本自我估分在4500分左右,实力水平大约在13段左右,人类选手中已然无敌。AlphaGo大战李世石Master大战聂卫平AlphaGo大战柯洁 AlphaGo新技能AlphaGo通过学习大量棋谱,以及更大规模的自我对弈完成学习,这种深度深度学学习的能力使得它能不断学习进化。AlphaGo发现了人类没有的围棋着法,初步展示了机器发现“新事物新事物”的创造性。这意味着它的增强学习算法可以从大数据中发现新的规律和知识,为人类扩展自己的知识体系开辟了新的认知通道。AlphaGo展现了曾被认为是人类独有、计算机难以

31、做到的“棋感直棋感直觉”这些技术使得人工智能程序初步具备了既可以考虑局部得失,又可以考虑全局态势的能力,从而具备了一种全局性“直觉”能力。深度深度学习学习发现发现新着法新着法棋感棋感知觉知觉新技能新技能 AlphaGo Zero青出于蓝 学习策略整合策略、整合策略、价价值网网络舍弃快速走子网络引入残差结构 2.舍弃快速走子网络,不再进行随机模拟,而是完全使用神经网络得到的结果替换随机模拟,从而在提升学习速率的同时,增强神经网络估值的准确性。1.AlphaGo Zero将策略网络和价值网络整合在一起,使用纯粹的深度强化学习方法进行端到端的自我对弈学习,神经网络的权值完全从随机初始化开始,使用强化

32、学习进行自我博弈和提升。3.AlphaGo Zero神经网络中还引入了残差结构,可使用更深的神经网络进行特征表征提取,从而能在更加复杂的棋盘局面中进行学习。AlphaGo Zero青出于蓝 AlphaGo最高需要1920块CPU和280块GPU训练,AlphaGo Lee用了176块GPU和48块TPU,而AlphaGo Zero仅仅使用了单机4块TPU便完成了训练任务。硬件结构硬件结构 AlphaGo Zero仅用3天的时间便达到了AlphaGo Lee的水平,21天后达到AlphaGo Master的水平。AlphaGo Zero成功证明了在没有人类指导和经验的前提下,深度强化学习方法在围

33、棋领域里仍然能够出色的完成指定的任务,甚至于比有人类经验知识指导时,完成的更加出色。AlphaGo成功秘诀:蒙特卡洛树搜索 在机器博弈中,每步行棋方案的运算时间、堆栈空间都是有限的,只能给出局部最优解,因此2006年提出的蒙特卡洛树搜索就成为随机搜索算法的首选。应用应用意义意义它结合了随机模拟的一般性和树搜索的准确性,近年来在围棋等完全信息博弈、多人博弈及随机类博弈难题上取得了成功应用。理论上,蒙特卡洛树搜索可被用在以状态,行动定义并用模拟预测输出结果的任何领域。它结合了广度优先搜索和深度优先搜索,会较好地集中到“更值得搜索的变化”(虽然不一定准确),同时可以给出一个同样不怎么准确的全局评估结

34、果,最后随着搜索树的自动生长,可以保证在足够大的运算能力和足够长的时间后收敛到完美解。AlphaGo成功秘诀:强化学习目标:从一个已经标记的训练集中进行学习。机器学习有监督学习Supervised Learning无监督学习Unsupervised Learning强化学习Reinforcement Learning目标:从一堆未标记样本中发现隐藏的结构。目标:在当前行动和未来状态中获得最大回报。在边获得样例边学习的过程中,不断迭代“在当前模型的情况下,如何选择下一步的行动才对完善当前的模型最有利”的过程直到模型收敛。强化学习的广泛应用 阿里巴巴公司在双11推荐场景中,使用了深度强化学习与自适

35、应在线学习建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,提高人和商品的配对效率,将手机用户点击率提升了10-20%。无人驾驶无人驾驶广告投放广告投放 强化学习在机器博弈以外还有很多应用,例如无人驾驶和广告投放等。01人机大战:深度学习算法的标志性成果最复杂(注:状态复杂度与博弈复杂度)的智力游戏:看似简单,实为复杂,具有10的170次方状态复杂空间涉涉及及逻逻辑辑推推理理,形形象象思思维维,优优化化选选择择等等多多种种人人类类智智能能(注注:国国际际象象棋棋只只有有逻逻辑辑推推理,没有形象思维)理,没有形象思维)02接近人类公公认认是是人人工工智智能能领领域域长长期期以来的重大挑

36、战以来的重大挑战03标志性国际学术界曾经普遍认为解国际学术界曾经普遍认为解决围棋问题需要决围棋问题需要15-2015-20年时间年时间04挑战为什么做围棋AIAI?创新性投入力度业内龙头 目前技术优势:起步早,算法新,技术强,资源雄厚 最近一年专注于强化学习研究 拟于近期公布新论文和数据,并从此退出围棋AI领域Google Deepmind Google Deepmind 简介传统围棋AIAI算法 MCTS MCTS (蒙特卡洛树搜索)双人一人一步双方信息完备(棋类完全信息,牌类不完全信息)零和动态博弈问题计算机下棋棋类要素的数字化恰当的数据结构 棋盘、棋子、棋规(着法规则,胜负规则)用着法推

37、演局面博弈树展开从有利局面选择当前着法博弈搜索局面评估指标定义与综合展开深度为4 4的博弈树 本方本方本方本方本方本方对方对方对方对方Ply 1Ply 3Ply 4Ply 2Ply 0根节点为当前局面根节点为当前局面叶节点为展开终点叶节点为展开终点双方轮流出手双方轮流出手偶数层为本方偶数层为本方奇数层为对方奇数层为对方围棋落子蒙特卡洛数学模型及评估围棋对弈过程可以看做一个马尔科夫过程:五元组:T,S,A(i),P(|i,a),r(i,a)T:决策时刻S:状态空间,S=iA(i):可行动集合(可落子点)P(|i,a):状态i下选择行动a的概率r(i,a):状态i下选择行动a后课获得的收益从当前局

38、面的所有可落子点中随机(或者给胜率高的点分配更多的计算力)选择一个点落子重复以上过程直到胜负可判断为止经多次模拟后(计算越多越精确),选择胜率最大的点落子传统围棋AIAI算法 数学模型 MCTSMCTS (蒙特卡洛树搜索)基本思想与特点:-将可能出现的状态转移过程用状态树表示-从初始状态开始重复抽样,逐步扩展树中的节点-某个状态再次被访问时,可以利用已有的结果,提高了效率-在抽样过程中可以随时得到行为的评价选择选择 -从根节点出发自上而下地选择一个落子点从根节点出发自上而下地选择一个落子点扩展扩展 -向选定的点添加一个或多个子节点向选定的点添加一个或多个子节点模拟模拟 -对扩展出的节点用蒙特卡

39、洛方法进行模拟对扩展出的节点用蒙特卡洛方法进行模拟回溯回溯 -根据模拟结果依次向上更新祖先节点估计值根据模拟结果依次向上更新祖先节点估计值1313个个卷卷积积层层,每每层层192192个个卷卷积积核核,每个卷积核每个卷积核3*33*3,参数个数,参数个数800800万万+GPU 3ms/GPU 3ms/步步预测准确率预测准确率 57%57%Policy Policy NetworkNetwork(策略网络)(策略网络)在每个分支节点直接判断形势在每个分支节点直接判断形势与与RolloutRollout随机模拟相结合,互为补充随机模拟相结合,互为补充Value NetworkValue Netw

40、ork(价值网络)(价值网络)给胜率高的点分配更多的计算力给胜率高的点分配更多的计算力任意时间算法,计算越多越精确任意时间算法,计算越多越精确1 1、选取、选取 2 2、展开、展开 3 3、评估、评估 4 4、倒传、倒传MCTSMCTS(蒙特卡洛树搜索)(蒙特卡洛树搜索)通过随机模拟走子胜率来判定形势通过随机模拟走子胜率来判定形势速度很快(速度很快(1ms/1ms/盘)盘)随机性与合理性的平衡随机性与合理性的平衡RolloutRollout(随机模拟走子)(随机模拟走子)AlphaGoAlphaGo的实现原理控制宽度(250)控制深度(150)基本算法快速模拟围棋是完全信息博弈,从理论上来说围

41、棋是完全信息博弈,从理论上来说可以通过暴力搜索所有可能的对弈过可以通过暴力搜索所有可能的对弈过程来确定最优的走法程来确定最优的走法Policy NetworkPolicy Network策略网络:落子棋感深度神经网络的有监督学习,目标是获得在围棋盘面下的落子棋感学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式)把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数用Policy Network作为第一感,将计算力分配到最有希望的选点分枝数从上百个减少到几个优先计算PolicyNetwork分数高的点,计算力充沛时,适当分配到

42、其他分值较低的点PolicyNetworkPolicyNetwork输入特征32242485521282721921321921321281322048 20482048 2048192321923212832485231121923219232192132192132128132128272485248552128321000局部感知域权重共享特征训练卷积层+池化层模型结构模型结构1313个卷积层,每层个卷积层,每层192192个个3 3*3 3卷积核卷积核数百万个参数数百万个参数训练数据训练数据KGS 6dKGS 6d以上对局,以上对局,1717万,职业对局万,职业对局8 8万。万。训练数

43、据量训练数据量50005000万万+训练时间几十天训练时间几十天运算速度运算速度GPUGPU,3ms3ms预测准确率预测准确率57%57%左右互博,自我进化Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。根据游戏结果迭代更新转移概率和评估函数神经网络结构与策略网络相同训练方法:自我对局目标:校正价值导向将策略网络权值作为初始值,自我对弈更新权值,从而提升棋力Pros:棋艺更高(win 80%of the games with SL policy network)Cons:走法集中,不适应MCTS多搜索范围的需求

44、强化学习(RL)Fast-Rollout Fast-Rollout 快速走子RolloutRollout(随机模拟走子)(随机模拟走子)通过随机模拟走子胜率来判定形势通过随机模拟走子胜率来判定形势速度快速度快随机性,合理性的平衡随机性,合理性的平衡原因:原因:1.1.策略网络的运行速度较慢策略网络的运行速度较慢 (3ms)(3ms)快速走子在快速走子在2us2us 2.2.用来评估盘面。用来评估盘面。在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。提升棋力几次

45、算平均值,效果未必不好。提升棋力 结构:局部特征匹配结构:局部特征匹配 +线性回归线性回归特征:围棋专业知识特征:围棋专业知识Value NetworkValue Network:胜负棋感深度神经网络的增强型学习(DeepMind独创)通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局)获取在围棋盘面的胜负棋感(注:对每一个落子点给一个当时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的)形形势判断:判断:-1:白棋必:白棋必胜0:黑棋:黑棋优势1:黑棋必:黑棋必胜Value Network Value Network

46、模型模型结构模型结构13个卷积层,每层个卷积层,每层192个卷积核,每个卷积核个卷积核,每个卷积核3*3数百万个参数数百万个参数训练数据训练数据Policy Network自我对弈棋谱。自我对弈棋谱。3000万万+特定盘面特定盘面+胜负结果胜负结果训练时间几十天训练时间几十天运算速度运算速度GPU,3ms方法:方法:在每个分支节点,使用在每个分支节点,使用Value Network直接判断形势直接判断形势与与Rollout随机模拟相结合,互为补充随机模拟相结合,互为补充效果:效果:职业水平,职业水平,AlphaGoMCTS在对局中实时搜索Step 1:基于策略网络落子,可能性大的落子拓展节点S

47、tep 2:对未来走势进行评估,同时使用估值网络和快速走子,综合两者预测未来走法Step 3:评估结果作为下一步走法的Q值。重新模拟。Step 4:结合下一步走法的Q值和策略网络进行再一次模拟。如果出现同样走法,Q值起平均。新分数=调整后的初始分+0.5*通过模拟(策略网络+快速走棋)得到的赢棋概率+0.5*估值网络的局面评估分Step 5:反复循环直到n次,或者timeout,选择被选择次数最多的走法作为下一步Put-TogetherPut-TogetherAlphaGo ZeroAlphaGo Zero第第3 3天,下了天,下了490490万局棋,打败老大万局棋,打败老大老老三三战战绩绩老

48、老三三学学棋棋过过程程刚开始,随刚开始,随机下子机下子热衷于吃子,热衷于吃子,完全不顾死活完全不顾死活发现了如果先占发现了如果先占住棋盘的边和角,住棋盘的边和角,后面占便宜后面占便宜学会了如何学会了如何打劫、打劫、征子征子懂得看棋懂得看棋形形第第2121天,败了老二天,败了老二第第4040天,完整走过了一个人类棋手学棋的全过程天,完整走过了一个人类棋手学棋的全过程棋盘棋盘/黑子黑子/白子白子棋子被围起来就死棋子被围起来就死规则规则棋士柯洁棋士柯洁 10月月19日日 02:22 一一 个个 纯纯 净净、纯纯 粹粹 自自 我我 学学 习习 的的AlphaGo是是最最强强的的.对对于于AlphaGo

49、的的自我进步来讲自我进步来讲.人类太多余了人类太多余了老大AlphaGo Lee,2016年3月 4:1 打败韩国棋手李世石老二AlphaGo Master,2017年5月 3:0 打败中国棋手柯洁老三AlphaGo Zero,2017年10月宣布 自学围棋40天,打败所有人AlphaGo ZeroAlphaGo Zero解析人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现)人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),阿法元不再被人类认知所局限,而能够发现新知识,发展新策略阿法元不再被人类认知所局限,而能够发现新知识,发展新策略区别1:特

50、征提取层采用40个残差模块,每个模块包含2个卷积层。运用残差模块提升了网络深度,更深的网络能更有效地直接从棋盘上提取特征区别2:同时训练走子策略(policy)网络 和胜率值(value)网络启示启示深度学习训练过程需要消耗大量人类标注样本,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以减少样本和人类标注的方法非常重要开局和收官和专业棋手的下法并无区别,但是中盘难于理解;机器经验与人类经验有很大差别,我们又该如何去选择和利用呢?智能围棋与蒙特卡洛树搜索没有棋感直觉不行,完全依赖棋感直觉也不行直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证AlphaGo使用蒙特卡洛树搜索

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 教学课件 > PPT综合课件

版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。

Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1 

陕公网安备 61072602000132号     违法和不良信息举报:0916-4228922