厦门大学Xiamen University国家示范性软件学院Software School of Xiamen University主要工作研究现有搜索引擎技术及索引技术研究Lucene工具包和其索引原理设计索引器,实现批量索引、增量索引、索引删除、索引更新等功能,并可以方便的移植生成高效索引库,供系统检索使用相关概念索引的组织倒排表 Lucene索引结构索引器设计与实现个性化搜索引擎系统的一个重要组成部分。可作为一个独立的索引器使用,为其他的搜索引擎和检索系统创建索引库。需要解决的主要问题 数据源文档预处理 如何构建索引 如何优化索引过程内部文本解析数据源:搜狗公开的全网中文数据语料结构内部文本解析解决方案DOC类是本系统所特有的一个抽象对象,是原始语料与Lucene Document的一个中间对象,起到作用。DOCLucene Document索引器设计与实现个性化搜索引擎系统的一个重要组成部分。可作为一个独立的索引器使用,为其他的搜索引擎和检索系统创建索引库。需要解决的主要问题 数据源文档预处理 如何构建索引 如何优化索引过程索引的构建索引 的数据 索引的构建索引文档Document的 索引器设计与实现个性化搜索引擎系统的一个重要组成部分。可作为一个独立的索引器使用,为其他的搜索引擎和检索系统创建索引库。需要解决的主要问题 数据源文档预处理 如何构建索引 如何优化索引过程