1、- 1 -人工智能与语音识别行业分析报告序言人工智能的发展近 50 年来得到了明显的提高,其交融了诸多学科。人工智能的研究在历史上分为结构派和功能派。结构派也成为仿生学派或者生理学派,他们认为人工智能既然是使机器具有人的智能,就应基于人的大脑模型的研究,至今仍处于研究阶段。功能派也称计算机派或者心理学派,他们认为计算机本身就具有数学逻辑演绎功能,表明了可以应用计算机研究人的思维活动,模拟人类智能活动。功能派的研究分析将作为本文对人工智能分析的重点。人工智能所涉猎的应用领域是非常广泛的,主要有以下几个方面:1、问题求解;2、逻辑推理与定理证明;3、自然语言理解;4、自动程序设计;5、专家系统;6
2、、机器人学。除上述这些研究领域之外,人工智能还有许多方面的应用研究,如机器学习、模式识别、智能控制及检索、机器学习及视觉、智能调度与指挥等等。语音识别的研究工作主要开始于二十世纪五十年代,从智能语音技术的发展历程来看,应用的技术推动力主要是语音技术核心算法和计算机芯片技术。语音合成技术在 2000 年时已达到用户基本可接受的准实用水平,2005 年开始获得了较为广泛的应用。未来语音合成技术将从清晰度和自然度的要求上升至对个性化合成的要求,如对语音、语调、情绪的丰富性要求等。语音识别技术主要包括语意识别和声纹识别。语音识别在技术原理上主要采取匹配识别和检测识别两种识别方式,关键技术包括选择识别单
3、元、特征参数提取、声学模型及语言模型的建立等。语音识别技术目前在桌面系统、移动设备和嵌入式领域均有一定程度的应用,未来的发展方向应是无限词汇量连续语句非特定人语音识别系统。综合考虑目前的人工智能和语音识别与语音合成技术的能力和客户接受度,目前企业级市场、车载语音市场、移动终端市场及教育娱乐市场有望在未来率先实现突破。我国目前呼叫中心语音市场刚刚启动,市场规模在其后有快速增长;车载语音识别系统市场出现快速增长,市场规模有望从 2009 年的 6430 万- 2 -美元提升至 2014 年的 2.1 亿美元,年均复合增长率约为 26.7%;而移动终端语音市场和教育娱乐语音市场也同样有较大发展潜力。
4、目前,高技术壁垒形成寡头垄断竞争格局。智能语音技术是人工智能的研究领域之一,其技术原理涉及声学、语言学、数字信号处理、计算机科学等多个学科,同时智能语音技术的研究周期长、投入大,使得智能语音行业具有较高的进入壁垒。在全球范围内,目前已形成寡头垄断竞争格局,仅有 Nuance、IBM、微软、Google、科大讯飞等少数厂商具备较强竞争力。- 3 -目录第一章 人工智能的概述 .- 3 -1.1 人工智能发展史 .- 3 -1.2 人工智能的分类 .- 5 -1.3 人工智能应用与发展 .- 6 -第二章 人工智能的应用 .- 7 -2.1 人工智能技术在网络电脑中的应用 .- 7 -2.2 因特
5、网上的人工智能教育资源 .- 9 -2.3 人工智能在虚拟克隆人方面的发展 .- 12 -第三章 语音识别行业概述 .- 14 -3.1 语音识别技术的发展史 .- 14 -3.2 语音识别技术的概述 .- 15 -3.3 语音识别面临的问题与未来发展 .- 16 -第四章 智能语音技术概述 .- 18 -4.1 智能语音技术简介 .- 18 -4.2 语音合成技术简介 .- 19 -第五章 智能语音市场分析 .- 23 -5.1 企业级语音市场加速发展 .- 24 -5.2 车载语音市场规模大幅提升 .- 25 -5.3 移动终端市场分析 .- 26 -5.4 教育和娱乐市场分析 .- 27
6、 -第六章 智能语音行业竞争分析 .- 30 -6.1 市场竞争格局分析 .- 30 -6.2 竞争产品举例-SIRI(IPHONE 4S) .- 31 - 4 -第一章 人工智能的概述1.1 人工智能发展史人工智能(Artificial Intelligence), 英文缩写为 AI, 是一门综合了计算机科学、生理学、哲学的交叉学科。人类之所以能够有智慧是由于数十亿个脑细胞不同的组织在一起工作,它们每一个都有不同的分工,这是天生的,而对于人工智能来说,我们需要让组成机器的电线像我们的脑细胞一样学会自己分工。1950年,英国科学家图灵曾在一篇名为计算机器与智能的论文中提出一个简单的判断标准,这
7、就是著名的图灵测试:让人和机器分别位于两个房间,他们只可通话,不能相互看见。通过对话,如果人无法判断另一方是人还是机器,那么这台机器就可认为是有智能的。世界各地对人工智能的研究很早就开始了,但对人工智能的真正实现要从计算机的诞生开始算起,这时人类才有可能以机器的实现人类的智能。AI 这个英文单词最早是在1956年的一次会议上提出的。经过这几十年的发展,人工智能正在以它巨大的力量影响着人们的生活。1941年由美国和德国两国共同研制的第一台计算机诞生了,从此以后人类存储和处理信息的方法开始发生革命性的变化,计算机编程变得十分简单,计算机理论的发展终于导致了人工智能理论的产生,解决了存储信息和自动处
8、理信息的方法。在1955的时候,香农与人一起开发了 The Logic Theorist 程序,它是一种采用树形结构的程序,在程序运行时,寻找与可能答案最接近的树的分枝进行探索,以得到正确的答案。这个程序在人工智能的历史上可以说是有重要地位的,它在学术上和社会上带来的巨大的影响,以至于现在所采用的方法思想方法有许多还是来自于这个50年代的程序。1956年,作为人工智能领域另一位著名科学家的麦卡希召集了一次会议来讨论人工智能未来的发展方向,从此人工智能的名字才正式确立,这次会议在人工智能历史上不是巨大的成功,但是这次会议给人工智能奠基人相互交流的机会,并为未来人工智能的发展起了铺垫的作用。在此以
9、后,人工智能的重点开始变为建立实用的能够自行解决问题的系统,并要求系统有自学习能力。在1957年,香农和另一些人又开发了一个程- 5 -序称为 General Problem Solver(GPS),它对 Wiener 的反馈理论有一个扩展,并能够解决一些比较普遍的问题。别的科学家在努力开发系统时,某位(我记不清楚名字了,毕竟是外国人)科学家作出了一项重大的贡献,他创建了表处理语言 LISP,直到现在许多人工智能程序还在使用这种语言,它几乎成了人工智能的代名词,到了今天,LISP 仍然在发展。在1963年,麻省理工学院受到了美国政府和国防部的支持进行人工智能的研究,其后发展出的许多程序十分引人
10、注目,麻省理工大学开发出了SHRDLU。在这个大发展的60年代,STUDENT 系统可以解决代数问题,而 SIR 系统则开始理解简单的英文句子了,SIR 的出现导致了新学科的出现:自然语言处理。在70年代出现的专家系统成了一个巨大的进步,他头一次让人知道计算机可以代替人类专家进行一些工作了,由于计算机硬件性能的提高,人工智能得以进行一系列重要的活动,如统计分析数据,参与医疗诊断等等,它作为生活的重要方面开始改变人类生活了。在理论方面,70年代也是大发展的一个时期,计算机开始有了简单的思维和视觉,同时在70年代,另一个人工智能语言Prolog 语言诞生了,它和 LISP 一起几乎成了人工智能工作
11、者不可缺少的工具。一直到70年代末形成的各种理论和相应的技术奠定了人工智能的基础。1.2 人工智能的分类人工智能的研究在历史上大致分为两大派别:结构派和功能派。结构派也称仿生学派或者生理学派,他们认为人工智能既然是使机器具有人的智能,就应基于人的大脑模型的研究。他们依据 1943 年由生理专家 McCulloch 和数理逻辑学家 Pitts 创立的脑模型,即 MP 模型,开创了用电子装置模仿人脑结构和功能的新途径。这一研究方法也叫做“白箱” ,即从对结构的了解出发,从大脑的神经元开始,进而研究神经网络模型和脑模型,提出用计算机硬件模拟神经网络,并提出多层网络中的反向传播算法,由此,从模型到算法
12、,从理论分析到工程实现,为神经网络计算机(第六代计算机)的研制打下了基础,开辟了人工智能的又一发展道路。这一派别的研究工作面临的问题在于如何制作具有人脑模型的计算机,而人脑结构本身就非常复杂,至今生理学界、医学界还无法彻底搞清,建立脑模型是一项非常复杂而艰巨的工作,至今仍处于研究阶段。- 6 -但是,这一派别的指导思想是从问题的本质出发,因此它决定了今后人工智能的研究和发展方向。功能派也称计算机派或者心理学派,他们认为计算机本身就具有数学逻辑演绎功能,表明了可以应用计算机研究人的思维活动,模拟人类智能活动。他们不像结构派那样绞尽脑汁去研究脑模型,而是利用目前的计算机,从解决具体问题出发,只要能
13、够获得问题的正确求解。这一研究方法也叫做“黑箱” ,即只基于考查外部的输入和输出,只关心最后得出的结论正确与否。他们研究人工智能的领域是非常广泛而且是行之有效的,从启发式算法到专家系统再到知识工程理论与技术等等,并在 80 年代取得很大发展。1.3 人工智能应用与发展人工智能所涉猎的应用领域是非常广泛的,主要有以下几个方面:1、问题求解。如不断开发了能够求解难题的下棋程序,如国际象棋。在下棋程序中应用的某些技术,如向前看几步,把复杂的问题分解成一些比较容易的子问题等等,均发展演变为搜索和问题归纳这样的人工智能基本技术。目前,该项目技术发展很快并且惊人,美国 IBM 公司的一台名为“深蓝”的计算
14、机与国际象棋大师卡斯帕罗夫对弈获得了胜利。这一事件,使世人惊呼“机器智能是否已达到或超过了人类智能。2、逻辑推理与定理证明。逻辑推理与定理证明是指不断开发能够对某些问题或事物进行推理证明的程序,就如同证明或推导数学公式一样,这些程序能够借助于对事实数据库的操作来证明和作推理判断。3、自然语言理解。目前已经开发出能够从内部数据库回答语音提出的问题的程序,这些程序通过阅读文本材料,还能够把其中的句子从一种语言翻译为另一种语言,执行用语音给出的指令和获取知识等等。4、自动程序设计。自动程序设计这项研究的目的在于,使计算机自身,能够根据各种不同目- 7 -的和要求来自动编写计算机程序,即可用高级语言编
15、程,还可用英语描述算法。目前已经可以自动编写出一些简单的程序。五、专家系统。一般来说,专家系统是一个智能计算机程序系统,其内部具有大量专家水平的某个领域知识与经验,能够利用人类专家的知识和解决问题的方法来解决该领域的问题。换而言之,专家系统是一个具有大量专门知识和经验的程序系统,它应用人工智能技术,根据某个领域一个或多个人类专家提供的知识和经验进行推理和判断,模拟人类专家的决策过程,以解决那些需要专家决定的复杂问题。目前,这一领域的应用是相当广泛的,如医疗诊断,建筑工程设计,化学和地质数据分析等等,其质量已达到很高水平。6、机器人学。机器人学是人工智能研究的一重要领域,其中包括对操作机器人装置
16、程序的研究。这个领域所研究的问题,包括从机器人手臂的最佳移动到实现机器人的目标动作序列的规划方法等等。目前,已经制造出成千上万个机器人,主要用于工业生产和军事用途上。在工业生产方面,其智能水平普遍不高,如顺利地通过周围环境,操作电灯开关、玩具积木及餐具等物品,一个小孩就能很容易的做到,但设计一个能完成上述操作任务的机器人则很难。因此开发高智能机器人是一个重要研究方面。除上述这些研究领域之外,人工智能还有许多方面的应用研究,如机器学习、模式识别、智能控制及检索、机器学习及视觉、智能调度与指挥等等。这些领域的研究成果辉煌,使人叹惊,相信随着全球性高科技的不断飞速发展,人工智能这一学科会更加日臻完善
17、。然而,任何新生事物的成长都不是一帆风顺的。人工智能自 1956 年问世以来,就引起人们的争议,在社会上对人工智能的科学性有所怀疑,对人工智能的发展产生恐惧心理。甚至还有些人把人工智能视为异端邪说,因此,人工智能也是在比较艰难的环境中顽强地拼搏与成长的。尽管如此,真正的科学与任何其它真理一样,是永远无法压制的。40 多年来,人工智能获得很大发展,它引起众多科学的日益重视,已成为一门广泛的交叉和前沿科学。- 8 -第二章 人工智能的应用2.1 人工智能技术在网络电脑中的应用人工智能在网络电脑应用的基本特征就是参与、互动、分享;参与是指网站的内容由大家提供,互动是指网站会员之间的互动、会员与公众的
18、互动,其基本形态是朋友圈、文章评注等;分享是指大家收藏的内容进行各种形式的输出、交换,使内容的价值最大化。 音乐、图片、文章等都是大家有收藏需要的内容,这些内容和大家的生活、工作、爱好、回忆等息息相关。如何将这些内容有效地组织管理起来,使之成为真正的社会知识财富是人工智能的应用一个方面。目前,对内容的组织管理手段主要就是分类,一是目录分类,二是 tag 分类(标签分类) 。要解决信息获取的准确性问题,只在宏观和中观层面进行分类思考是不行的,必须进入语义理解层面才行,做到这一点,资料库才能真正变成知识库,也才能对后续的互动、分享提供更智能化的支持。互动,常规的交友、评注完全是人工行为,基本效果是
19、不错的,但在很多情况下却不能解决问题。如果使用上述的宏观语义理解技术,这个问题就可以得到很大程度上的解决;每个人的收藏兴趣是通过你已经收藏的内容体现的,特别是收藏的内容达到一定量级后这种体现就会非常准确;要找自己的“志同道合”者前提是自己要收藏一定数量的内容,然后以自己的收藏兴趣为条件让系统自动为你查找和你的收藏兴趣最接近的人就行了。有了这个功能,当你想建一个朋友圈时,当你想认识一些好朋友时,你就可以方便地找到大量的同兴趣的候选者,有效解决互动对象的选择问题。现在的分享手段和途径主要有:内容订阅(带 tag 过滤) 、人工推荐、Tag标记、RSS 输出、JavaScript 输出、API 调用
20、等,除 tag 手段外,其它的手段都和内容本身无关,只是提供了一种纯碎的技术手段,而 tag 方式在前面也说过,仅仅解决了粗粒度的宏观和中观内容过滤,准确性不够。如果使用上述的宏观语义理解技术,内容分享的准确性就会得到极大提高,基本应用思路是根- 9 -据每个人的自动收藏兴趣由网站自动为其推荐新文章,实现个性化的自动按需推荐,使大家之间的内容分享活动自动“跑”起来,并彻底解决垃圾推荐的难题。人工智能技术及其应用方式和传统的 Web2.0 技术及应用方式是很好的补充关系,只有将两者有效地结合在一起才能创造更大的应用价值,才能给网民大众带来更好的应用体验。 目前所知,只有一个叫360doc 个人图
21、书馆()的 Web2.0网站应用了这项人工智能技术,主要在 4 个方面进行了应用:1、自动给文章生成简洁、准确的摘要;2、自动在文章之间建立基于内容的相关性连接;3、自动根据个人的收藏兴趣为其推荐新文章;4、根据自己的收藏兴趣查找“志同道合”者。上述所说的人工智能主要部分是语义理解这一部分,与这一部分有最大关联的主要是搜索服务的提供商,google 的论坛部分在一定程度上正在采用这种思路运作,只是现有的服务提供可能在便利程度上还不能达到,特别是针对中文系统的辐射更加薄弱。目前,有一个比较明朗的方向就是能够提供一个基于兴趣爱好的内容丰富的可定制的平台。一个以个人主页(博客、微博、facebook
22、 等)为基底的可以便捷的寻找到个人兴趣的操作平面,显然在这一点上无论社区还是门户网站的现有结构和操作界面都不能适应这一要求,随身浏览的功能被实际的情况抑制。同时我们看到个人主页这样比较“规范“的界面可以很好的充当操作平面的功能,只是现在个人主页本身结构功能还比较简单,只要针对个人主页现在的界面进行部分改造就可以逐步向这个方面过渡。针对于社区本身具有的优势是论坛栏目分类本身已经对于信息进行了一种分捡,各栏目内部又有一定的分类,这对于内容检索来说具有相当的好处,事实上如楼主所说的图书网站为什么能够比较好的应用这种“人工智能“技术的一个主要原因就是“图书“行业本身就具有比较好的分类检索系统,这对于语
23、义识别是具有相当帮助的,相当于给语义识别检索加上了一个很好的辅助检索标准,这是具有相当意义的。- 10 -2.2 因特网上的人工智能教育资源因特网上丰富的人工智能教育资源为我国高中人工智能教育的开展提供了一个强有力的学习支持。虽然大多以国外网站居多,但教师若能结合本校实际情况和学生的特点对其合理利用,使之本土化、校本化,无疑能够有效地促进人工智能教育的顺利开展。课程标准中规定“人工智能初步模块”由 3 部分内容组成:知识及其表达,推理与专家系统,人工智能语言与问题求解。下面将主要围绕这三个主题,列举几个与人工智能教育相关的有代表性的资源网站。1.人工智能研究者俱乐部(网址:http:/ 、资源
24、共享、分类讨论(针对人工智能的不同组成模块开辟独立的讨论组)和网站联盟几个模块组成。内容更新快,资源丰富,可为开展人工智能教育的教师和学生提供该领域的实时发展动态和教学参考信息。2.浙江大学远程教育网络课程人工智能基础(网址 http:/202.205.144.112/)这是国内教育资源的最大提供者高等教育出版社,在全国抗击“非典”时期,为了更好地服务于高等学校的教育,向高校师生提供的一门优质的网络教学课程。它从工程应用的角度系统地介绍了人工智能的基本原理、方法及其应用技术,并全面反映了国内外研究和应用的最新进展。全课程分三个部分:绪论,基础篇和提高篇,分别适合不同学习阶段的学生使用。3.美国人工智能协会(American Association for Artificial Intelligence 网址: http:/www.aaai.org/)美国人工智能协会(AAAI)成立于 1979 年,是个非盈利性的科学社团组织,主要致力于让机器产生智慧思考和智能行为的研究。此外,提升公众对人工智能的理解,对人工智能实践人员的教学和培训,为人工智能领域的研究者和投资者提供指导等也都是 AAAI 的实践内容。AAAI 主要活动包括组织和创办研讨