ImageVerifierCode 换一换
格式:PPT , 页数:31 ,大小:1.95MB ,
资源ID:966818      下载积分:20 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-966818.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(搜索引擎开发实践全文检索与Lucene简介.PPT)为本站会员(天***)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

搜索引擎开发实践全文检索与Lucene简介.PPT

1、搜索引擎开 发实 践第二 讲 全文 检 索与 Lucene简 介主 讲 人: 罗刚概 述l作 业讲 解: Lucene源代 码项 目l倒排索引的原理 lLucene的整体 结 构lLucene基本概念lLucene3.0常用 API的介 绍 与使用lLucene中的 压缩 算法 作 业讲 解: Lucene源代 码项 目l从 SVN下 载 Lucene源代 码TortoiseSVN Exporthttps:/svn.apache.org/repos/asf/lucene/dev/trunk/lucenel把 Lucene源代 码导 入 Eclipse倒排索引的来源人工 编 的名 词 索引第 4

2、页倒排索引的原理第 5页12435排序后的索引 词:文档 :北京武 汉天津上海大 连Lucene中的倒排索引第 6页文档 1: When in Rome, do as the Romans do.文档 2: When do you come back from Rome?停用 词 : in, as, the, from( 4 )( 2, 1 )come( 1 ),( 1 )( 1, 1 ),( 2, 1 )when( 5 ) ( 2, 1 )back( 4 )( 1, 1 )romans( 2 ),( 6 )( 1, 1 ),( 2, 1 )rome( 3 )( 2, 1 )you( 3, 5

3、 ),( 2 )( 1, 2 ),( 2, 1 )dopos( doc, freq )term.tis .frq .prx查询词rome 折半 查 找Lucene中的基本概念l索引 (Index): 文档的集合 组 成索引。和一般的数据 库 不一 样 ,Lucene不支持定 义 主 键 ,但 Solr支持。l为 了方便索引大量的文档, Lucene中的一个索引分成若干个子索引,叫做段 (segment)。段中包含了一些可搜索的文档。 l文档 (Document):代表索引 库 中的一条 记录 。一个文档可以包含多个列 (Field)。和一般的数据 库 不一 样 ,一个文档的一个列可以有多个值

4、。例如一篇文档既可以属于互 联 网 类 ,又可以属于科技 类 。l列 (Field):命名的 词 的集合。l词 (Term) :由两个 值 定 义 词语 和 这 个 词语 所出 现 的列。l倒排索引是基于 词 (Term)的搜索。Lucene的整体 结 构search()addDocument()Lucene索引 库IndexWriterDocument:url:http:/title:猎 兔搜索body:内容介 绍IndexSearcherQuerytitle:NBA ScoreDoc匹配到的文档索引相关 类DocumentAnalyzer IndexWriterField(Title)Fi

5、eld(Body)Field(URL) 一个 Document代表索引 库 中的一条 记录 。一个 Document可以包含多个列。例如一篇文章可以包含 “标题 ”、 “正文 ”、 “修改时间 ”等 field, 创 建 这 些列 对 象以后,可以通 过 Document的add方法增加 这 些列到 Document实 例。 一段有意 义 的文字通 过 Analyzer分割成一个个的 词语 后写入到索引 库 。创 建索引/创 建新的索引 库IndexWriter index = new IndexWriter(indexDirectory,/索引 库 存放的路径new StandardAnalyzer(Version.LUCENE_CURRENT),true,/新建索引 库IndexWriter.MaxFieldLength.UNLIMITED);/不限制列的 长 度File dir = new File(sourceDir);indexDir(dir); /索引 sourceDir路径下的文件index.optimize();/索引 优 化index.close();/关 闭 索引 库

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。