语音智能的“技术控”.doc

上传人:gs****r 文档编号:1938473 上传时间:2019-03-24 格式:DOC 页数:8 大小:109KB
下载 相关 举报
语音智能的“技术控”.doc_第1页
第1页 / 共8页
语音智能的“技术控”.doc_第2页
第2页 / 共8页
语音智能的“技术控”.doc_第3页
第3页 / 共8页
语音智能的“技术控”.doc_第4页
第4页 / 共8页
语音智能的“技术控”.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、1语音智能的“技术控”2014 年 5 月 29 日,微软(亚洲)互联网工程院发布了一款名为“小冰”的人工智能聊天机器人。这个号称拥有 16 岁少女智商的机器人首先出现在微信平台上,顶着一张 90 后“萌妹子”自拍照的头像。这种明确的性别定位,与可男可女的机器人 Siri 有了些许不同,反而更像一个真实存在的“人” 。 然而,这位萌妹子成为“微信红人”后却问题不断。5 月 30 日,部分小冰公号在对话时出现了“无应答” “答非所问” “重复回答”等故障。研发方就此致歉,称为公测期准备的 10 万个小冰账号于上线首日被抢注一空,同时与小冰聊天的用户超过百万,导致拥堵。另一方面,也有“部分小冰被腾

2、讯微信系统误判为 SPAM 账号” ,即垃圾账号的原因。 5 月 31 日,认证为“微软必应项目经理”的新浪微博公号称“企鹅有时候不让我说话” 。次日,微软宣布, “腾讯公司在未做任何说明的情况下,突然开始大规模杀死在各个聊天群组之中的小冰账号。 ”被视作“奇兵”的小冰,仅三天即告夭折,而其在声明中使用的“屠刀”等措辞,将这次纷争升格为了战争。 微软方面指责腾讯以微信出现假冒账号为借口,封杀了全部真正的小冰。并称在上线伊始,双方就建立了沟通渠道, “我们建议可采用任何形式的合作,双方的沟通本来正在进行” 。腾讯公司则声称,接到了大量用户询问,担心这款产品的运营方式是否会泄露用户聊天内容。 “经

3、查证2后发现该产品涉及模拟用户操作、诱导用户拉群、批量注册垃圾账号等影响平台规则和用户体验的违规行为” 。但腾讯亦称仍在与微软沟通。 双方谈判随后终告失败。微软在近几天内迅速与易信、米聊合作,让小冰在上述平台“复活” 。此外,微软还称将与触宝结合,担当用户生活服务私人助手;并与奇虎 360 公司达成“战略合作” ,预期在“人工智能、移动互联等方面展开深度技术合作” 。而腾讯方面亦在开发自己的语音智能产品。 围绕语音智能的一场大战似已拉开序幕。 一度“失聪” 在 2011 年 Siri 随 iPhone 4s 面世之前,无论是语音应用还是人工智能领域,这样的“热闹”都还不可想象。 就算是中国语音

4、应用第一品牌科大讯飞股份有限公司(下称科大讯飞) ,语音支撑软件在 2010 年实现营业收入也仅 6400 万元。业界公认该公司占据语音应用 60%以上市场份额,换言之,市场总量不过 1 亿元,且主要是基于语音合成业务。海通证券分析师陈美凤测算,由语音识别业务带来的营业收入不到语音支撑软件收入的 10%。 语音应用主要分为三大部分,语音识别、语音合成和声纹识别,其中声纹识别技术目前尚未真正形成市场。如果说将 Siri 及其同类产品看作一个“人”的话,语音识别可以视作他的耳朵,而语音合成则是“嘴巴” 。 让机器人“说话”更容易。早期的语音合成可以简单理解为“录音+重放” 。首先邀请一名阅读者录制

5、较常出现的词句。而后在“说话”时,将文本切割为短句、词语甚至是发音片断,与录音资料进行匹配后播放。3但这种做法有时会令语句听起来相对生硬,甚或较难理解,因此自上世纪 80 年代以来,对语音合成技术的改进主要是针对自然度和音质。这一技术在公交、地铁等公共广播系统应用已久,智能手机出现后也被广泛用于读书、读报软件。 一度成为语音应用瓶颈的是语音识别技术。上海智臻网络科技有限公司(下称智臻科技)先后推出的 MSN 聊天机器人、海宝机器人曾经风靡一时。公司董事长袁辉称,在 2004 年首次开发 MSN 机器人时,也曾考虑过让它能“听说读写” ,但最终仍仅定位为文字机器人,原因是当时的语音识别技术不成熟

6、, “识别率只有 60%,甚至更低” 。 早在上世纪 90 年代就已经出现了商用的中文语音听写系统,用于将人口述的语句转换为文字存储,省却双手打字之累。当时的这类系统必须经过使用者的“训练”才能勉强“听懂”这个人的话,其他人使用则又要再度训练,且对发音、语速都有较高要求。火了一段时间后很快沉寂。 杨宁平 2003 年回国创业时,国内都谈不上有语音识别市场。当时在美国等一些国家,语音识别技术已经被用于一些企业的呼叫中心,代替人工接线员,但在国内,企业“机器听懂人话”的反应普遍都是“怎么可能”?杨宁平创立上海基立讯科技有限公司(下称基立讯)初期,长年靠其他电话业务勉强维持。 要让机器“听”懂人话,

7、首先要将语音信号转换为机器能够识别的频谱,将其与系统中已有的声学模型进行比对,从而确认发音。虽然每个人说话的时候音量、声调、频率各不相同,但相同的发音转换为频谱4后,仍会拥有共同的几项特征。这些特征就是识别不同发音的关键。比如, “方(fang 第一声) ”“风(feng,第一声) ”“分” (fen,第一声) ”“粉(fen,第三声) ,排除声母发音后,不同的韵母和声调会显示不同的特征。 在对发音进行识别的过程中,系统已有的声学模型至关重要。除了要有准确性,还要尽量包容每个人不同的口音。早期建立这一模型的方法,是由使用者本人进行“训练” ,通过招募志愿者阅读指定文字收集语音语料建立“说话人无

8、关模型” 。但是志愿者量不够大,这导致模型的准确性和包容度皆不足。 上海交通大学电子信息与电器工程学院特别研究员俞凯认为,互联网尤其是云计算技术的应用,是搜集语料的最大助力。 “现在一些开放的语音识别平台,像谷歌、百度、搜狗有上千万人在用,能够收集上亿数据。真正的说话人无关模型就是互联网普及后出现的。 ” 提高识别率的方法还有模糊匹配、领域限制等。对机器而言,发音并不等于文字。例如,发音“feng” ,究竟是“锋利”的“锋” ,还是“山峰”的“峰” ,或是其他同音字,还需要再进一步与语言模型进行比对,找出最接近的一组显示出来。 “以往主要是截取一些短语、短句,但是语料丰富、技术发展后,会用一串

9、发音去比对,因此反而是较长的语句识别准确率更高。 ”杨宁平介绍。 然而,无论研究者将已有技术一步一步改进得多么细致,语音识别在本世纪初都只是一个十分狭小的领域,企业大多较小甚至微小。当时基立讯所有成员一共三人,如今的行业巨头科大讯飞也只是个十多人的“草台班子” 。研究者亦多集中于中5国科学院自动化所、声学所,及北大、清华和中国科技大学三大院校。他们能够接到的语音识别业务也都十分有限,要么是在大型项目中分一杯羹,要么就是一些试验性的“创新项目” ,难称保本,遑论盈利。 拯救者 Siri 市场的拯救者 Siri 在 2011 年出现了。它将语音技术与人工智能相融合,激发了技术控们的热情。百度、搜狗

10、等搜索引擎纷纷推出语音搜索功能,腾讯则是语音输入法,长虹、联想等则将其引入了智能电视、智能手机等各类家电。 资本热情在 2012 年爆发。科大讯飞迎接各大机构的密集调研,动辄六七十人集体前往,市盈率也由 70 倍升至 90 倍。成立于 2012 年 6 月的北京云知声信息技术有限公司更是在成立 500 天后就获得了高达 1 亿元的 A 轮融资,创造了当年这一领域的最高融资记录。 但在袁辉看来,Siri 并不等同于语音技术。这款机器人之所以受到追捧,固然是因为“听” “说”能力更像一个“人” 。但要像人一样“陪聊” ,仅仅会听说远远不够,更重要的是“大脑” 。很多人认为 Siri 是智能语音,但

11、它实际上是机器人,只是以语音形式来互动。科大讯飞像美国的 Nuance,而小 i 就是中国的 Siri。智臻科技成立于 2001 年,小 i是其主打的智能机器人品牌。Nuance 是一家语音识别技术研发机构,也是 Siri 的语音转换引擎的提供商。 袁辉自认为,2003 年至 2011 年,其所在公司一直是全球最大的虚拟机器人提供商和运营商。但直到三年前 Siri 推出,公司方实现盈利。此前则几经艰难,甚至一度靠私人借高利贷维持。 6与以往的聊天机器人相比,Siri 及类似产品确实显得更加“智能” 。此前的一些聊天机器人运用的是关键词抓取技术,根据关键词进行反应。如一句话中出现了“天气” ,即

12、便使用者只是无意中提及这个词,得到的回答就是当地当天的天气。经常被逗乐的还有不能判断否定句,如输入“我爱你”和“我爱你才怪” ,得到的回答都是“我爱你” 。 这源自机器人对语义理解不足。智臻科技资深市场顾问梅莉介绍,仅在银行信用卡系统中,该公司收集到的余额查询表达方式就有 200 多种,包括“查询余额”这样出现频率较高的,也有“老子还有多少银子”等。只有让机器理解各类千奇百怪的表述和具备逻辑能力,才能真正可以让机器用自然语言交流。 更大的问题在于降噪。车载语音导航设备一度被认为是语音技术应用的一大增长点。然而实际应用中,行驶过程中产生的噪音,往往令机器难以识别语句的语音,导致无法进一步实现交流

13、。这种情况在智能家居领域相对好些,但要识别哪些话是人们的普通交谈,哪些话是对机器人“说”的,难度则又进一层。 解困 Siri 之后,机器人的耳朵和大脑都变得越来越“智能” ,现在如何让语音智能“有用”成为挑战。 即使有了苹果公司的支持,Siri 的“无所不知”之路也难称顺利。多数使用者尝鲜后很快厌倦了 Siri,并不真正用这个“助理”查询天气、交通等,也不使用它的语音拨号等内置应用,Siri 的“所知”也十分有限,它更像是一个纯娱乐性的聊天机器人。问题是,聊天无法产生价值,换言之就是“没用” 。 7要让语音智能“有用” ,智臻科技找到的出路是客服。小 i 被广泛用于金融、通讯领域的短信和网络客

14、服,以及社保、财政、街道等政府部门自动问答系统。这种做法的好处是,将服务范围限制在一定领域内,从而提高语音、语言和语义识别的正确率。相较通用语音识别引擎 85%的正确率,此类服务的正确率则都在 90%以上甚至更高。 招商银行信用卡微信机器人是最受欢迎的七大微信公号之一,其识别正确率目前已达 98%。用户在添加这个账号后,可以像真人一样和机器人对话,获得常见问题的回答。用户在绑定信用卡后,则可以查询自己的账单、还款金额和积分等信息,还可以办理分期付款等简单业务,复杂业务亦可由系统直接跳转至手机银行办理。 小 i 也被用于短信客服系统。一般的短信自助客服系统须经过早已设计好的路径,操作复杂,耗时较

15、长。如要进行余额查询,往往需要经过服务语言、服务大类、服务小类、服务细目的层层选择,而相对智能化的自助客服系统则能直接将客户引至操作层。据称这样做可令招行节省约 5000 万元短信费用。 智臻科技项目负责人孟庆国估算,银行业每通客服电话的成本大约是 5 元(包含人员工资、通信费、水电、座席硬件设备等) 。2012 年招行卡中心客服的人工话务量超过 6000 万通,若微信的智能互动和自助服务能节省 10%的话务量,则招行信用卡中心一年节省的费用大概是 3000 万元。 IT 研究和顾问咨询公司 Gartner 在 2011 年的分析报告中就曾指出,截至 2011 年,全球大约有 36 家智能机器

16、人系统服务商。在其调查的 198家服务商中,收入大于 500 万美元的近三分之一。Gartner 预计,2014年全球 1000 强公司中至少有 20%会采用智能机器人系统来提高服务水平。尽管如此,语音智能应用仍有长路要走。除人工智能难在通用领域产生价值外,语音识别仍是瓶颈。由于中文方言繁多,对口音甚至方言的识别,需在大量语料积累的基础上,非经济实力和用户基础雄厚不能做到。目前仅科大讯飞陆续公开推广相关识别引擎。 “Siri 定位是做个无所不知无所不能的机器人,如果能实现肯定非常厉害,就是变形金刚出现的时候。小 i 就是在变形金刚这条路上走了八年,最后死掉了。 ”袁辉认为,这条路不是普通创业者能走的。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 学科论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。