1、ICST 参加SEWM2005评测报告,北京大学计算机科学技术研究所路 斌,内容提纲,CWT100G数据预处理Web检索文本检索链接分析任务处理Web Page分类未来工作,CWT100G数据的预处理,URL消重提取552.6万条可用数据提取内容:网页信息超链接关系,从原始网页得到更多的信息,提取六个字段,赋予不同权重网页正文、Title、Meta、正文标题、链出文字链入文字提取链接关系网页间的指向关系,内容提纲,CWT100G数据预处理Web检索文本检索链接分析任务处理Web Page分类未来工作,文本检索,自动分词,正向最大匹配法逆向最大匹配法双向匹配法联想-回溯法.,索引技术,倒排索引,
2、查询处理,查询处理流程查询分词短语查询and查询or查询,相关度排序,向量空间模型初始检索结果根据tf*idf排序文章长度TF/总词数,字段权重调整,提取内容包括六个域:网页正文、标签、Meta、链出文字、正文标题、链入文字各个字段分别建立索引权重计算线性搜索方法粗粒度细粒度,链接分析,HITSPageRank衰减因子值的选择: 0.85衰减因子值越大,计算所需的迭代次数就越多PageRank值与IR系统结果值相乘,Web检索任务,主页/指定页面查询实施与主流搜索引擎所用技术基本相同主题提取任务当前主流搜索引擎并不能很好的完成这项任务,对检索结果运用特别的算法进行再处理,主页/指定页面查询,区
3、分HomePage和NamedPageHP对主页加分线性搜索最佳系数NP/HP采用不同系数,主题提取任务,链接关系利用将查询结果中同一网站的网页聚集在一块,寻找入口网页(在较上层且指向较多的结果网页)二次筛选处理使得前10/20个结果包含尽可能多的不同站点,允许一定程度的冗余(2/3),实验结果分析,NP/HP任务区分针对任务采取不同策略HP任务相对于NP较难TD任务更难如何更好利用链接关系,内容提纲,CWT100G数据预处理Web检索文本检索链接分析任务处理Web Page分类未来工作,Web Page分类,分类算法SVM文档模型向量空间模型网页特征网页正文、Title、Meta、正文标题、链出文字链入文字,实验结果分析,各个字段权重计算,内容提纲,CWT100G数据预处理Web检索文本检索链接分析任务处理Web Page分类未来工作,未来工作,文档模型相似度计算模型自动分词词性标注、消除歧义、未登录词识别URL匹配分析英文、汉语拼音网页结构提取更细粒度:分块字体大小、文字样式链接关系分析,谢谢!,