搜索引擎开发实践识别未登录词与发现新词.PPT

上传人:天*** 文档编号:1004388 上传时间:2018-11-14 格式:PPT 页数:24 大小:1.40MB
下载 相关 举报
搜索引擎开发实践识别未登录词与发现新词.PPT_第1页
第1页 / 共24页
搜索引擎开发实践识别未登录词与发现新词.PPT_第2页
第2页 / 共24页
搜索引擎开发实践识别未登录词与发现新词.PPT_第3页
第3页 / 共24页
搜索引擎开发实践识别未登录词与发现新词.PPT_第4页
第4页 / 共24页
搜索引擎开发实践识别未登录词与发现新词.PPT_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、搜索引擎开 发实 践第八 讲识别 未登 录词 与 发现 新 词主 讲 人: 罗刚概 述l作 业讲 解: 实现 一个接收 电话 号 码 的有限状 态 机l识别 未登 录词l新 词发现l作 业 :从 A抓取拼写 检查词作 业讲 解:接收 电话 号 码 的有限状 态 机public static boolean isTel(String s)FSMTel fsm = FSMTel.getInstance();ArrayList matchPos = new ArrayList();/把 输 入串 转换 成有限状 态 机可以接收的事件for(int i=0; i0) return true;retur

2、n false;未登 录词 (Out Of Vocabulary)识别问题有人 问 道:南京市 长 叫江大 桥 ?你怎么知道的?因 为 看到一个 标语 南京市 长 江大 桥欢 迎您。未登 录词识别问题 也叫做:命名 实 体 识别 (Named Entity Recognition)l常 见 的未登 录词 包括:人名: 张 三、 陈 方安生地名:安湖路、 龙腾 苑四区机构名:泰康人寿、欧姆 龙 公司译 名:安德森组块识别 (Chunking)切分和 标 注多个 词 的 单 元每个大的 单 元叫做 组块 (chunk)W e s a w t h e y e l l o w d o gPRPNPVB

3、D DT JJ NNNP用模式 识别 未登 录词例如 “高 东镇 高 东 二路 ”,需要把 “高 东 二路 ”这样 不在 词 典中的路名识别 出来。可以先把 输 入串抽象成待 识别 的 标 注序列,然后根据 词类识别 。例如:高 东 镇 高 东 二 路镇 后 缀 UNKNOW 号 码 街后 缀高 东 镇 高 东 二路镇 后 缀 未登 录 街道利用模式来 识别 未登 录 街道名, 识别规则 可以表示成如下的形式:镇 后 缀 未登 录 街道 =镇 后 缀 UNKNOW 号 码 街后 缀识别规则 (Product)lhs = new ArrayList(); /左 边 的模式rhs = new Ar

4、rayList(); /右 边 的模式/镇 后 缀 UNKNOW 号 码 街后 缀rhs.add(AddressType.SuffixTown);rhs.add(AddressType.Unknow);rhs.add(AddressType.No);rhs.add(AddressType.SuffixStreet);/镇 后 缀 未登 录 街道lhs.add(new AddressSpan(1,AddressType.SuffixTown);/归约长 度是 1/把 “UNKNOW 号 码 街后 缀 ”3个符号替 换 成 “未登 录 街道 ”,因此 归约长 度是 3lhs.add(new Add

5、ressSpan(3,AddressType.Street);/把 规则 加到文法 库addProduct(rhs, lhs); 模式文法 (Pattern Grammar)l文法 (Grammar)是 规则 的集合, 规则 的形式:lleftPattern = rightPatternl模式 (Pattern)描述 单词 的行 为用 类 型序列来描述模式: SuffixTown Street词汇 化 (lexical)的模式: V for n: 动词 后接 for然后接一个名 词模式文法 识别 未登 录词l定 义 特征的 类别 :例如未登 录词 的上文,下文等。l根据特征 词库对输 入串做全

6、切分:可以采用 AdjList存 储 切分 结 果。l匹配 规则 来 识别 未登 录词 :可以把右 边 的模式 组织 成 Trie树 ,左 边的模式作 为节 点属性。全切分 词图 匹配上右 边 的模式后用左 边 的模式替 换 。循 环 替 换导 致死 锁l规则 替 换 可能会 进 入死循 环 ,因 为 可能出 现 重复 应 用 规则 的情况A -B -Al通 过检查 每条 规则 来解决死 锁问题每个模式 赋 一个 权 重 ,用模式中的 类 型序列的 权 重和来衡量模式权 重例如: SuffixTown + Unknow + No +SuffixStreet = 6 + 8+ 5 + 7 = 26 SuffixTown + Street = 6 + 4 = 10规则 的左 边 的模式 权 重必 须 小于右 边 模式 权 重应 用 这样 的 规则 后整个文本的模式 权 重越来越小

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。