英语选词填空智能作答机器人 (2).docx

上传人:滴答 文档编号:4012129 上传时间:2019-09-10 格式:DOCX 页数:36 大小:956.26KB
下载 相关 举报
英语选词填空智能作答机器人 (2).docx_第1页
第1页 / 共36页
英语选词填空智能作答机器人 (2).docx_第2页
第2页 / 共36页
英语选词填空智能作答机器人 (2).docx_第3页
第3页 / 共36页
英语选词填空智能作答机器人 (2).docx_第4页
第4页 / 共36页
英语选词填空智能作答机器人 (2).docx_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、毕 业 设 计题 目 英语选词填空智能作答机器人专 业 计算机科学与技术毕业设计摘 要本毕业设计主要自主设计和开发了一款基于语言模型算法和微信小程序开发平台的英语选词填空和单项选择自动智能作答软件。在该设计的微信小程序软件开发过程中,我们采用了“微信小程序客户端+微信小程序云平台+云服务器 ”的软件设计架构,在微信小程序客户端实现基本的软件交互逻辑;在微信小程序云开发平台上实现云函数调用、云数据库管理和云存储功能;在云服务器中实现对英语选词填空句子和单项选择题目的基于 N-Gram 语言模型的句子组合方式评估,得到最优解答序列,并返回给微信小程序进行显示。使用“微信小程序客户端+微信小程序云平

2、台+云服务器”的三级软件设计架构,可以突破微信小程序客户端在对于软件规模、软件功能上的限制,简化我们微信小程序的前端架构,提高我们后端在设计上的自由度和软件后续版本更新的便捷度和可扩展性。便于我们软件的维护、升级和二次重构。在本实验中,通过对使用不同外部规模语料和不同 n 元语法选择对语言模型在本课题所研究任务上的实际表现效果(评估精确度和模型运行时长)进行评估,得到使用 15% 1 Billion Word 语料作为训练语料的情况下训练得到的 3-gram 语言模型是最适合我们研究任务的语言模型,其模型平均运行时长为 1s,并在以“每日英语听力 APP”经济学人杂志的文章为测试样本的条件下,

3、可以达到平均83.3%的精确度。关键词:微信小程序;N-Gram 语言模型;智能作答毕业设计ABSTRACTThe main aim of this thesis is to design and develop an English multiple choice and cloze test automatic intelligent answering agent based on the language model algorithm and the WeChat Mini Program development platform.In the development process

4、 of the WeChat Mini Program of this design, we adopt the software design architecture of “WeChat Mini Program client + WeChat Mini Program Cloud Base + cloud server” to implement basic software interaction logic on the WeChat Mini Program client; The function of cloud function call, cloud database m

5、anagement and cloud storage is implemented on the WeChat Mini Program Cloud Base platform; the N-Gram language model-based sentence combination method for English multiple choice and cloze test is evaluated in the cloud server, and the most excellent solution sequence will return to the WeChat Mini

6、Program for display. Using the three-level software design architecture of “WeChat Mini Program client + WeChat Mini Program Cloud Base + cloud server”, we can break through the limitations of WeChat Mini Program client on software scale and software function, simplifying the front-end architecture

7、of our WeChat Mini Program, improving the flexibility of our backend design and the ease and scalability of subsequent software updates. It is convenient for our software to maintain, upgrade and rebuild. In this experiment, by using different external scale corpora and different n-gram grammar choi

8、ces to evaluate the actual performance of the language model on the task of the thesis (evaluation accuracy and model run time), get using 15% 1 Billion Word corpus as our external corpora and 3-gram language model is the most suitable language model for our research tasks. The average running time

9、of this model is 1s, and it can generate 83.3% precision for all 20 test items as average.Key words:WeChat Mini Program;N-gram;Intelligent Answering Agent毕业设计目录1 引言 .12 概述 .43 总体设计 .53.1 软件开发平台 .53.2 软件实现算法 .53.3 计算资源配置 .54 软件设计 .64.1 软件页面设计 .64.2 软件交互逻辑 .84.3 软件具体实现 .115 算法设计 .145.1 词序重要性说明 .145.2

10、语言模型 .145.3 语言模型原理 .155.4 语言模型的评估方式 .186 试验与调试 .206.1 实验开发环境 .206.2 实验数据准备 .206.3 实验调试过程 .226.4 实验结果展示 .256.4 实验结果分析 .266.5 实验改进意见 .277 结论 .28致谢 .29参考文献 .30毕业设计11 引言随着大数据时代的到来和计算机算力资源的进步,以及云计算技术的出现,使得海量的计算数据和计算资源对于每一个用户来说都变得触手可及。而借助于海量数据和庞大计算资源,依靠数据驱动的机器学习和深度学习技术也得以在当下再一次腾飞。机器学习是一门探究和开发一系列算法来研究如何使计算

11、机不需要通过外部明确的指示,而是单纯的通过对于输入样本数据的学习,建模和使用构建好的模型,根据新的实际测试输入来进行完成对于结果的预测的学科。适用于具有一定的不确定性(不是可以通过简单的逻辑编程和运算就能够解决的问题)和存在某种潜在的模式可以被学习的任务。如今,在我们的身边,应用机器学习技术实现的智能代理机器人变得无处不在。远到一二十年前就已经存在的网易邮箱和腾讯邮箱等的垃圾邮件自动分类系统,应用机器学习分类算法,帮助我们解决垃圾邮件的困扰;近到几年前随着智能手机的普及十分红火的移动新闻客户端,如今日头条等应用基于 Feed 流的推荐系统,帮助我们进行新闻和广告内容的精准推荐;再到现如今广泛讨

12、论和随着电动车时代的到来而迅猛发展的自动驾驶技术,使用图像识别和场景建模系统,帮助我们解决车辆自动驾驶的问题。还有文本处理(搜索引擎 1、机器翻译 2)、语音识别(语音助手 3、语音输入法 4)、视频识别(机器鉴黄 5、视频监控)以及其它的数据挖掘,如金融征信 6、量化交易 7、智能硬件中的数据挖掘等。机器学习技术已经变得无处不在,似乎也在变得无所不能。考试,说到高考和中考,也许会令很多的中国人眉头一皱,即使是对早已毕业走上工作岗位或者甚至是已经退休了的很多中国人来说。高考题目的难度和题型的复杂度使得很多考生望洋兴叹,甚至是很多年后,再回忆高考岁月,也是无限感慨与惆怅。那么,如果应用“万能”的

13、机器学习技术来帮助我们自动完成考试题目的作答就会是一个很有意思的研究课题。成都准星云学科技有限公司成立于 2014 年,依托清华大学的大数据、人工智能、自然语言识别等技术,研发出的以自动解题技术为核心的 AI-MATHS 人工智能系统在 2017 年的高考数学考场上对其优秀的模型性能进行了验证,在断网的环境下分别完成了对当年的北京卷文科数学试卷和全国卷二的文科数学试卷的考试,并分别取得了 105 分和 110 分的高分 8。在 AI-MATHS 参加考试的同时,上海千闻云计算科技有限公司出品的学霸君解题机器人 Aidam 也再一旁参加了同样的数学考试,并且拿到了 134 分的高分 9。毕业设计

14、2事后,学霸君的首席科学家陈锐锋介绍说,学霸君解题机器人 Aidam 的解题步骤,为以下三步 10:1. 使用文本处理中的机器翻译技术,将自然语言翻译成机器能理解的形式语言。2. 借助知识元网络把知识的基础运算连接成网络,进行推理和运算。3. 再次借助机器翻译技术,将通过解题引擎输出的形式语言转化翻译为自然语言。究其主要技术还是运用的是自然语言处理技术。迄今为止,自然语言处理技术已经涵盖了对人类自然语言所进行的一切有意义的操作和分析。在国内的一线互联网公司,如百度、腾讯、阿里和今日头条等,它们的核心数据仍然是文本数据。基于文本内容可以做大量的工作,以服务于公司的核心业务和目标服务。例如,搜索业

15、务(网络搜索,电子商务搜索,地图搜索等),需要对用户的搜索句子进行大量分析并分析用户的搜索意图,然后向用户呈现他需要的搜索结果,并且附带呈现用户可能感兴趣的某些搜索广告。在这个看似简单的日常搜索任务中,自然语言处理技术和语言模型的应用在其中起着不可或缺的作用。在自然语言处理的研究中,语言模型首先出现在语音识别领域,识别对应于给定语音信号的单词序列。目前常用的语言模型主要分为有以下几种: 生成模型,从形式语言系统开始,生成一组特定语言集合,如 N. Chomsky 的形式语言理论和转换语法;分析模型,从一组特定语言集合开始,基于对这个集合中的各个元素属性的分析,阐明这些元素之间的关系,在此基础上

16、,将演绎方法用于建立其相应的语言规则系统;辨别模型,将生成模型与分析模型相结合,从一组特定的语言集合和规则系统开始,通过有限的步骤,产生一个非常有用的模型,确定这些元素是否是语言中的一堆杂乱无章的单词或合格的句子,例如 Y. Barr-Hilell 使用数学逻辑法提出的句法类型演算模型。随着统计语言模型的提出,越来越多的研究开始关注统计语言模型,统计语言模型能够表达许多不同的可能答案。它不是指得到具有相对可靠的确定性,而是产生一组较优可能结果项中更可靠的结果。 事实上,基于自然语言处理的模型构建无非是简简单单的基于递归嵌套和距离相关的原理。机器不懂语法,简单地从词汇的语法角度进行分析,我们无法

17、得到正确的识别,一种简单易行的统计学方法(马尔可夫链)就是用于从概率判断每个识别的正确可能性。一般常见的语义分析模型有:矢量空间模型,概率统计模型,概念模型,基于神经网络的模型等。对主要基于统计学语言结构的统计学学习模型和主要基于语言语法规则的语言知识模型进行多模型融合,会成为语言计算中很有希望的解毕业设计3决方案。并且,这种新型的多模型融合解决方案已经在语言计算、信息检索、机器翻译等领域取得了一些进展 11。本研究课题主要围绕统计语言模型在英语句子重组任务中的作用和英语选词填空这一项具体任务上的实现效果,对现有的自然语言处理任务中的语言模型的分类、原理、方法、效果以及存在的问题现状开展研究分

18、析,并阐述外部语料规模和 n 元语法选择对语言模型在表现性能上的影响,为今后自然语言处理领域的科研工作者提供一定的参考价值。同时构建一个完备的带有依靠语言模型实现的英语选词填空智能作答系统的移动端微信小程序软件,为自然语言处理技术在智能辅助教育领域的应用和发展做出一定的贡献,并给其它同类研究者提供一定的可能性的参考。毕业设计42 概述在本课题(“英语选词填空智能作答机器人”)中,我们的主要任务是设计一款移动端的智能教育辅助软件,借助图像文字识别技术和自然语言处理技术,实现对于英语题目的自动智能作答。即通过手机移动端软件,借助手机摄像头或者直接调用系统相册内的图片,获取得到所要计算的题目的图片,

19、通过图像文字识别技术对题目图片中的题目内容进行识别,得到内容的文本信息。再借助文字处理技术,对得到的图像文字识别之后的文本信息进行处理,对噪声信息进行过滤,对有效信息进行整合和智能分类,最终得到分类之后的题目的题干信息和候选项信息,输出给用户进行人为确认。用户确认之后,再将确认无误的题目文本信息,输入给语言模型,借助外部语料,对不同候选项在题干中的不同排列组合方式结果进行打分,得出一个最佳的结果,作为我们的预测答案,返回给用户,完成我们的软件项目。同时,对语言模型在不同规模的外部语料和不同 n 元语法的情况下的表现性能进行评估,得出一个最适用于本课题开发任务的语言模型。毕业设计53 总体设计3

20、.1 软件开发平台在手机移动端软件的开发平台选择上,为了实现敏捷开发,减少开发流程,降低软件开发复杂度和软件后续升级和运维的成本。我们选择了当下十分热门的带有云开发平台功能的微信小程序开发平台。微信小程序的云开发平台提供了免费的“云数据库”、“云存储”和“云函数”。减少了我们在外部部署云服务器的麻烦,我们可以借助微信小程序云平台提供的“云数据库”对我们的数据进行存储;借助微信小程序云平台提供的“云存储”对我们通过拍摄得到的需要处理的原图像进行存储;借助微信小程序云平台提供的“云函数”克服微信小程序本身在对外部 API 调用上存在的局限性缺陷,实现同直接使用移动端平台(Android 或 iOS

21、)进行开发同样的自由度。3.2 软件实现算法为了实现敏捷开发,在图像文字识别的算法上,我们直接通过调用腾讯云提供的图像文字识别服务,调用通用印刷体识别 API,实现对图像信息的文字识别。腾讯云所提供的通用印刷体识别服务,可以返回带有识别结果的文字内容和文字位置信息的详细结果,非常适合我们这种在复杂多噪声环境下的图像识别任务(由于题目内容所占具体试卷区域大小的不一致性,可能导致获取到的原图像同时包含两个或多个题目内容,甚至是一个完整的题目内容加上部分残缺的多余题目内容,不能确保所获取到图像信息都是有用有效信息)。在自然语言处理技术上,为了得到对候选项在待填充句子中的最佳填充结果,我们使用语言模型

22、算法对不同候选项在待填中句子上的不同排列组合枚举结果进行打分,得到相应的最佳组合句子。3.3 计算资源配置在软件的用户接入界面和用户交互逻辑上,可以使用微信小程序客户端来实现。对于用户操作信息、用户输入图像等用户操作参数,我们可以借助微信小程序提供的免费云平台服务来完整实现。微信小程序云平台免费提供了 2G 规模大小的“云数据库”和 5G 规模大小的“云存储”,足够我们完成本课题研究项目。由于微信小程序提供的云平台并没有提供自由的可定制接口,开发者不能够直接在操作系统层面进行后端开发。所以为了完成语言模型的预测任务,运行我们的预测评估算法,我们又另外构建了一个 Linux 云服务器来运行我们的语言模毕业设计6型算法和存储我们的语言模型语料。并通过以 API 调用的方式与微信小程序“云函数”进行通信,从而间接实现与微信小程序客户端的通信。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。