Solr5.5搜索引擎之分词原理说明.docx

上传人:人*** 文档编号:12898085 上传时间:2022-06-25 格式:DOCX 页数:11 大小:61.08KB
下载 相关 举报
Solr5.5搜索引擎之分词原理说明.docx_第1页
第1页 / 共11页
Solr5.5搜索引擎之分词原理说明.docx_第2页
第2页 / 共11页
Solr5.5搜索引擎之分词原理说明.docx_第3页
第3页 / 共11页
Solr5.5搜索引擎之分词原理说明.docx_第4页
第4页 / 共11页
Solr5.5搜索引擎之分词原理说明.docx_第5页
第5页 / 共11页
点击查看更多>>
资源描述

Solr5.5搜索引擎之分词原理说明1中文分词1.1概念众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文时以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子Iamastudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”,“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”的分词结果是:“我是一个学生”。摘自http:/www.williamlong.info/archives/333.html1.2应用目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,很多西文的处理方法对中文不能直接采用,就是因为中文必须有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也要解

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 商业租赁

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。