一种基于统计的汉语切词方法.doc

上传人:晟*** 文档编号:14056109 上传时间:2022-09-17 格式:DOC 页数:10 大小:67KB
下载 相关 举报
一种基于统计的汉语切词方法.doc_第1页
第1页 / 共10页
一种基于统计的汉语切词方法.doc_第2页
第2页 / 共10页
一种基于统计的汉语切词方法.doc_第3页
第3页 / 共10页
一种基于统计的汉语切词方法.doc_第4页
第4页 / 共10页
一种基于统计的汉语切词方法.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

一种基于统计的汉语切词方法刘海峰 王元元(解放军理工大学理 江苏南京 )【摘要】汉语分词是中文信息处理系统的基础。本文的主要目的是:提出一种概率模式与统计手段相结合的方法进行汉语切词。首先采用一种基于概率的算法对汉语文本进行切分,然后在此基础上借助样本方差这一统计手段对切分结果进行检验、修正;利用两种模型相结合的方式,提高切分的准确率。【关键词】自动分词 搭配 最大概率 样本均值 样本方差1 汉语切词的意义对于利用计算机进行汉语自动翻译的工作者来说,汉语文本的切词是必须面对的问题。一般说来,如果我们能在两种不同的语言中找到对应的模式,那么翻译将是非常理想的。但是书面汉语不像英语、法语等印欧语言那样,词与词之间用空格分开,一个汉语的句子却是由前后连续的字符串组成,词与词之间并没有明显的分界标志。这样,计算机面对的是汉语整句输入,要使计算机像人一样对句子进行处理,就必需把这一串字符切分成合乎人的语感的一串词。而这一步骤几乎又是我们进行其它所有与自然语言处理相关的应用诸如中文信息处理、人机对话等的前提。其次,语言中的词往往具有多种词性和多种词义,这虽然是各种语言的一

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。