第四章--分词(补充)31页.doc

上传人:晟*** 文档编号:6527569 上传时间:2021-09-09 格式:DOC 页数:30 大小:348.50KB
下载 相关 举报
第四章--分词(补充)31页.doc_第1页
第1页 / 共30页
第四章--分词(补充)31页.doc_第2页
第2页 / 共30页
第四章--分词(补充)31页.doc_第3页
第3页 / 共30页
第四章--分词(补充)31页.doc_第4页
第4页 / 共30页
第四章--分词(补充)31页.doc_第5页
第5页 / 共30页
点击查看更多>>
资源描述

分词有人把文本解析比喻成人体的消化过程,输入食物,分解出有用的氨基酸和葡萄糖等。这部分处理从整段的文本中解析出有意义的词语。1.1 中文分词因为中文文本中词和词之间不像英文一样存在边界,所以中文分词是一个专业处理中文信息的搜索引擎首先面对的问题。英语、法语和德语等西方语言通常采用空格或标点符号将词隔开,具有天然的分隔符,所以词的获取简单。但是中文、日文和韩文等东方语言,虽然句子之间有分隔符,但词与词之间没有分隔符,所以需要靠程序切分出词。另外,除了可以用于全文查找,中文分词的方法也被应用到英语手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。1.1.1 查找词典算法 (机械分词法)在讨论查找词典方法之前,首先看看文本方式的词典格式:滤波器 n 0堵击 v 0稿费 n 7神机妙算 i 0开设 vn 0 v 32每行一个词,然后是这个词可能的词性和语料库中按这个词性出现的次数。存储基本词性相关信息的类如下:public class POSInf public short p

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 公文范文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。