通信工程毕业论文_基于隐马尔科夫模型的中文分词算法程序设计.docx

资源描述

1、本科毕业论文（20 届）基于隐马尔科夫模型的中文分词算法程序设计所在学院专业班级通信工程学生姓名学号指导教师职称完成日期年月 I摘要本文针对中文语句分词的的特点和难点，采用了构建隐马尔科夫模型的方法对中文语句进行识别。首先，加载语料文件，对语料文件进行训练，获取隐马尔科夫模型所需要的参数；其次，对要判别的中文语句进行预处理，构建字典树，建立邻接矩阵有向无环图，用迪杰斯特拉算法求出这个邻接矩阵有向无环图的最短路径，即是用最大概率算法求出的初步分词；然后,构建隐马尔科夫模型；最后根据构建出来的隐马尔科夫模型，对输入语句中的新词和歧义次进行统计学识别。本文在 WebStorm 9

2、.0 开发环境下，借助于 Node.js 开放平台，设计并实现了基于隐马尔科夫模型的中文分词算法程序设计，得到了较好的检测效果。关键词：中文分词；隐马尔科夫模型；Node.js本文针对中文语句分词的特点和难点，采用了构建马尔科夫模型的方法对中文语句进行识别。首先，加载语料文件，对语料文件进行训练，获取马尔科夫模型所需要的参数；其次，对要判别的中文语句进行预处理，构建字典树，建立邻接矩阵有向无环图，用迪杰斯特拉算法求出这个邻接矩阵有向无环图的最短路径，即是用最大概率算法求出的初步分词；然后,构建马尔科夫模型；最后根据构建出来的隐马尔科夫模型，对输入语句中的新词和歧义次进行统计学识别。本文在 9.

3、0 开发环境下，借助于 Node.js 开放平台，设计并实现了基于马尔科夫模型的中文分词算法程序设计，得到了较好的检测效IIABSTRACTThe paper for Chinese sentence segmentation of the characters and difficulties, the building hidden Markov model approach to Chinese sentence recognition.First, load the data file, the data file training, access to hidden Markov m

4、odel parameters; secondly, to judge Chinese statements for pretreatment, building the dictionary tree, the establishment of adjacency matrix of directed acyclic graph (DAG), Dijkstra algorithm is used for the adjacent matrix of directed acyclic graph the shortest path, that is, with the largest prob

5、ability algorithm to compute the initial word; then, construct the hidden Markov model. Finally according to the constructed out of the hidden Markov model, to new words and ambiguity in the input sentence to identify statistical.In this paper webstorm 9.0 development environment. With the help of n

6、ode.js open platform, the design and implementation of the based on Hidden Markov model for Chinese word segmentation algorithm and program design, good detection effect is obtained.Keywords: Chinese sentence segmentation，hidden Markov modelIII目录第 1 章绪论 .11.1 课题研究的背景及意义 .11.2 中文分词概述 .31.2.1 什么是中文分

7、词 .11.2.2 中文分词难点 .11.2 中文分词的发展 .31.3 算法构建的编程语言Node.js .31.4 WebStorm 集成开发环境 .31.5 本章小结 .3第 2 章基础知识 .42.1 马尔科夫模型及马尔科夫链 .42.1.1 马尔科夫模型概述 .42.1.2 马尔科夫模型的应用领域 .42.2 隐马尔科夫模型概述 .42.3 隐马尔科夫模型的五元组 .42.4 隐马尔科夫模型的三个基本问题 .4IV2.1.1 评估问题 .42.1.2 解码问题 .42.1.2 学习问题 .42.4 隐马模型的三个问题在中文分词中的实践 .42.5 本章小结 .4第 3 章视频图像

8、预处理 .73.1 引言 .7结论 .10参考文献 .11致谢 .12附录 1.1基于隐马尔科夫模型的中文分词算法程序设计1基于隐马尔科夫模型中文分词算法程序设计第 1 章绪论1.1 课题研究的背景及意义随着科技的发展，互联网行业日新月异的突飞猛变，信息技术在发生着巨大的变化。互联网上的信息每年都以几何级数的增长。如何在这样巨大的信息洪流中挖掘有用信息，已经成为人们越来越关注的问题。中文分词是其他中文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词 1。1.2 中文分词概述1.2.1 什么是中文分

9、词中文分词是指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。基于隐马尔科夫模型的中文分词算法程序设计2中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。1.2.2 中文分词的难点有了成熟的分词算法，是否就能容易的解决中文分词的问题呢

10、？事实远非如此。中文是一种十分复杂的语言，让计算机理解中文语言更是困难。中文分词领域研究存在四个突出的难题：1. “词“是否有清晰的界定中文分词的一个重要前提是：至少要在计算的意义上清楚界定真是文本中每个词语的边界 2。然而 ,这样一个起码的要求在十年前还是可望而不可及的奢想。在每本汉语语法教科书中, 都可以找到有关“词”的一条相当抽象的定义 : 语言中有意义的能单说或用来造句的最小单位。在计算上 ,这种模棱两可的定义是不可操作的,或者说,是不可计算的2. 分词和理解孰先孰后由于自动分词是大部分中文信息处理系统的第一步 (即前端) ,是对句子实施句法语义分析的前提。也就是说,自动基于隐马

11、尔科夫模型的中文分词算法程序设计3分词所依据的只能是文本的表层信息。所以,尽管人在识别句子中的词语时是以理解为基础的,然而从实用的角度考虑,计算机自动分词系统不可能完全照搬人类的分词模式,而通常会选择“先分词后理解”的处理策略。然而有些研究人员相信自然语言理解是一切文本分析,包括自动分词,的基础,所以提出了另一条技术路线“先理解后分词” 。3. 未登录词对分词精度的影响长期以来 ,研究人员一直把未登录词和分词歧义并列为影响分词精度的两大因素。十年前,笔者自己的认识也是这样的。十年来 ,研究人员在这两个问题上倾注了大量的精力,探索过各种各样的解决方案。其中 ,对交集型歧义字串进行的大规模语

12、料库调查,以及明确提出把分词歧义消解过程分解为侦察和消歧两个子过程的认识 7 ,都是近十年来分词研究的重大收获。然而未登录词和分词歧义两者究竟孰重孰轻,亟需有一个定量的分析。因为这个问题其实影响着自动分词系统的总体设计思路。1.2.3 中文分词的发展在自然语言处理技术中，中文处理技术比西文处理技术要落后很大一段距离，许多西文的处理方法中文不能直接采用，就是因为中文必需有分词这道工序 3。中文分词是其他中基于隐马尔科夫模型的中文分词算法程序设计4文信息处理的基础，搜索引擎只是中文分词的一个应用。其他的比如机器翻译（MT）、语音合成、自动分类、自动摘要、自动校对等等，都需要用到分词。因为中

13、文需要分词，可能会影响一些研究，但同时也为一些企业带来机会，因为国外的计算机处理技术要想进入中国市场，首先也是要解决中文分词问题。在中文研究方面，相比外国人来说，中国人有十分明显的优势。分词准确性对搜索引擎来说十分重要，但如果分词速度太慢，即使准确性再高，对于搜索引擎来说也是不可用的，因为搜索引擎需要处理数以亿计的网页，如果分词耗用的时间过长，会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说，分词的准确性和速度，二者都需要达到很高的要求。研究中文分词的大多是科研院校，清华、北大、哈工大、中科院、北京语言学院、山西大学、东北大学、IBM 研究院、微软中国研究院等都有自己的研究队伍，而真正专

14、业研究中文分词的商业公司除了海量科技以外，几乎没有了。科研院校研究的技术，大部分不能很快产品化，而一个专业公司的力量毕竟有限，看来中文分词技术要想更好的服务于更多的产品，还有很长一段路。1.2.4 中文分词的基本方法与本课题研究方法论概述1 第 1 类是基于语言学知识的规则方法，如：各种形态的最大匹配、最少切分方法；2 是基于大规模语料库的机器学习方法，这是目前应用比较广泛、效果较好的解决方案用到的统计模型有 N 元基于隐马尔科夫模型的中文分词算法程序设计5语言模型、信道噪声模型、最大期望、HMM 等。3 也是实际的分词系统中用到的，即规则与统计等多类方法的综合。我选题的重点主要是针对第 2

15、类和第 3 类基于大规模语料库的机器学习方法，从中主要选择 MP 模型（最大期望模型）和 HMM 模型（隐马尔可夫模型 Hidden Markov Model）作为重点研究方向。通过统计学的方法对中文分词分词的疑难点之一未登录词对精度的影响做了重点的研究。1.3 算法构建编程语言Node.js1.3.1 什么是 Node.jsNode.js 是一个基于 Chrome JavaScript 运行时建立的平台，用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动，非阻塞 I/O 模型而得以轻量和高效，非常适合在分布式设备上运行的数据密集型的实时应用。1.3.2 Node.js 的特性V8 引擎本身使用了一些最新的编译技术。这使得这类编写 JavaScript 脚本语言的代码的速度大大提高，而且节省开发成本。所需的性能是关键节点。JavaScript 是一种事件驱动的语言，这一优势节点的使用，制备了一种高度可扩展的服务器。节点使用的结构称为“周期事件（event loop） ”这样一个高度可扩展的服务器成为制备方便和安全。提高服务器

展开阅读全文