资源描述
围棋人机大战的背后与人工智能发展趋势,刘知青 北京邮电大学教授、计算机围棋研究所所长
(注:本文由刘教授于2016年4月在围棋TV上的发言整理而成),报告提纲,什么是本次围棋人机大战的看点?
为什么是围棋问题?
AlphaGo是如何解决围棋问题的?
如何展望围棋人机大战之后的人工智能?,樊麾,与围棋人机大战的赛前预测,AlphaGo开发过程:
1)项目正式开始于2014年
2)2015年7月已完全超越现有AI
3)2015年10月已5:0战胜了樊麾
4)2016年1月完全超越了普通职业棋手
樊麾的提示:说我棋臭的,我承认,确实棋臭,李世石,与围棋人机大战的结果,李世石完败
李世石赢的一盘也是因为AlphaGo在大幅领先局势下的失误
AlphaGo在展现强大力量的同时,也暴露潜在的问题和弱点,柯杰,与围棋人机大战的看点,不是普通意义上的挑战比赛,更是公司内部的系统测试
AlphaGo展现了独特的围棋风格
优秀的大局观和强大的总体把握能力
简明直接的局部定型,,虽非最优,但瑕不掩瑜
算法仍然存在弱点,还有很大改进空间
柯杰:“就算AlphaGo战胜了李世石,但它赢不了我”,为什么是围棋?,最复杂(注:状态复杂度与博弈复杂度)的智力游戏:看似简单,实为复杂,具有10的170次方状态复杂空间。
涉及逻辑推理,形象思维,优化选择等多种人类智能(注:国际象棋只有逻辑推理,没有形象思维)
公认是人工智能领域长期以来的重大挑战
国际学术界曾经普遍认为解决围棋问题需要15-20年时间,AlphaGo的核心方法,由于天文数字的状态空间和搜索空间,蛮力计算无法解决围棋问题(注:解决国际象棋的IBM深蓝是用蛮力方法,就是靠计算,这种方法在围棋这么大的计算与搜索空间是无法进行的)
围棋职业棋手的解决方法:棋感直觉+搜索验证
AlphaGo的核心方法完全类似于完全职业棋手的解决方法
AlphaGo的优势:完全以胜率为目标,不受任何其它因素影响,深度神经网络:棋感直觉,棋感直觉,是高水平围棋对弈的要素
反应了职业棋手长期学习、训练、对弈的经验积累
AlphaGo通过深度神经网络机器学习,获得围棋棋感直觉,并且训练强度远超出任何棋手的个人能力(注:有的围棋对弈软件如:Zen,没有棋感直觉,每走一步软件是硬写上去的,这个是规则,不是棋感直觉。规则的覆盖面非常小,围棋的变化太多)(训练两个网络,policy network走子网络和value network估值网络),策略网络:落子棋感,深度神经网络的有监督学习
学习职业棋手和业余高段棋
手的棋谱(数十万份棋谱,
上亿数量级的落子方式)
获得在围棋盘面下的落子棋感,价值网络:胜负棋感,深度神经网络的增强型学习(DeepMind独创)
通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局)
获取在围棋盘面的胜负棋感(注:对每一个落子点给一个当时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的),蒙特卡洛树搜索:搜索验证,没有棋感直觉不行,完全依赖棋感直觉也不行
直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证
AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负感进行计算验证。,蒙特卡洛树搜索,蒙特卡洛模拟采样:胜负棋感验证,基于数学期望的胜负评估模型(胜率)
基于蒙特卡洛模拟进行胜负结果采样(模拟采样比直觉更可靠)
根据模拟采样结果验证盘面胜负的数学期望
可靠程度与采样规模相关(采样越大,离真理会更近些),胜负棋感验证(采用b图),最大信心上限搜索:落子棋感验证,最大信心上限搜索是在线机器学习的重要方法(不同的选点通过树搜索)
平衡机器学习过程中探索与利用之间的矛盾
搜索最优的落子点,同时也是搜索次数最多的、信心最大的、胜率最高的落子点(在最优的落子点做大量的搜索),落子棋感验证(采用e图),搜索结果:双方最佳的落子序列,落子过程的最终搜索结果是双方最佳的落子序列,反映了对棋局进程的展望(不太靠谱的可能搜索5-6步就停下来,最有可能的就搜索深一些,学习上限自动做的)
在一般情况下,28步落子序列展望远远超出围棋职业选手的搜索深度
在特殊情况下(一本道),28步的搜索深度仍显不足(例如打劫,由于步数较多搜索深度可能不足,如果机器被引入一个比较复杂的局面,这个局面有可能会超出它的思维搜索深度)
注:AlphaGo的底层技术还是蒙特卡洛树搜索,它用了神经网络的棋感直觉进行有效剪枝(树可以分枝不要那么宽,到了某个程度就不需要往下搜索没有意义,是过去技术的升级),搜索结果:双方最佳的落子序列-28步搜索,围棋人机大战之后的人工智能展望,人工智能的技术基础
人工智能的核心方法:直觉获取、搜索验证、优化选择
人工智能的应用展望,人工智能的三大技术基础,1、大数据
2、廉价的并行计算
3、深度神经网络(其直觉的东西就是通过深度神经网络利用大数据进行训练),人工智能的核心方法:直觉获取,直觉:不经过思考过程,很快就能出现的直接想法、感觉、信念或者偏好(这个非常重要,其强大的力量。如:落子的直觉,胜负的直觉、棋盘的直觉、棋形的直觉)
英文Intuition来自于拉丁语:intueri,意思是“往里看”、“默观”
通过深度神经网络和大数据的训练而获得,人工智能的核心方法:搜索验证,验证:为直觉建立真实性、准确性和可靠性的检验过程
验证是核实直觉不存在偏差的一个充分条件
由于廉价并行计算和大数据的支持,直觉可以通过搜索计算来验证,人工智能的核心方法:优化选择,人类生活面临一系列的抉择问题(注:有了直觉和验证就可以找一个最好的)
A.手里的股票是持有还是抛售
B.驾驶员到交通灯前是左拐还是右拐
直觉获取和搜索验证的结合使用,可以提供优化选择,人工智能的应用展望:优化决策,国防:战略决策与战术决策
医疗:诊断决策与治疗决策
金融:投资决策与市场决策
交通:资源决策与物流决策,刘知青教授的总结1,过去10年计算机围棋一直使用新的技术:蒙特卡洛树搜索
蒙特卡洛树搜索底层有一个坚实的数学基础:上层使用并行计算,通过计算进行模拟、采样一系列的数学方法使计算机围棋有明显提高
蒙特卡洛树搜索也是AlphaGo的一个基本技术点,刘知青教授的总结2,在此之上又使用了新的技术,就是基于机器学习的神经网络
这个神经网络有很大的作用:
1、通过学习高水平棋手的棋谱,获得如何在盘面落子的棋感
2、提高机器的增强型学习,获得形势判断的棋感
这两个棋感提供给蒙特卡洛树搜索技术进行验证,从而达到目前的技术突破,刘知青教授的总结3,计算机在这次人机大战中使用了与职业棋手相似的方式,通过棋感(落子棋感、形势判断棋感)再加上逻辑判断进行落子。
计算机没有其它因素的干扰,不受情绪影响。这是它在这次人机大战的优势,
展开阅读全文
相关搜索