中文同义词自动抽取研究.ppt

上传人:ga****84 文档编号:351191 上传时间:2018-09-25 格式:PPT 页数:27 大小:2.55MB
下载 相关 举报
中文同义词自动抽取研究.ppt_第1页
第1页 / 共27页
中文同义词自动抽取研究.ppt_第2页
第2页 / 共27页
中文同义词自动抽取研究.ppt_第3页
第3页 / 共27页
中文同义词自动抽取研究.ppt_第4页
第4页 / 共27页
中文同义词自动抽取研究.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、中文同义词自动抽取研究 南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生 目录 基于语义词典的方法 基于 同义词词林(扩展版) 基于中文概念词典 CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 目录 基于语义词典的方法 基于 同义词词林(扩展版) 基于中文概念词典 CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 同义词词林(扩展版) 在 同义词词林(扩展版) 中,编码末尾为 = 的词语集合表示的是同一个 语义 。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的

2、词语集合。 目标词 “ 规则 ”对应的同义词集合: Di24A01= 规则 守则 准则 则 规 律 章法 轨道 清规 戒律 规例 规约 目录 基于语义词典的方法 基于 同义词词林(扩展版) 基于中文概念词典 CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 中文概念词典 CCD CCD中使用 Synset字段来描述 概念。 但是在 Synset中的 词语并不完全是同义词, 而是某种意义上的 相关 词 。 一 个 词语也可能 出现在多 个 Synset中 。 如 目标词 “ 爱好 ” : 概念编号 定义 Synset 01745360 吸引普通大众 喜好

3、 流行 爱好 盛行 风行 00273902 一种附属的活动 嗜好 爱好 业余爱好 基于中文概念词典 本文提出基于 典型同义词 的过滤方法。 基本思想: 在包含目标词的 Synset中统计出典型同义词。 使用典型同义词按照一定规则在 Synset中过滤出同义词。 典型同义词统计方法 典型同义词统计方法 基于典型同义词的过滤算法 最终“ 爱好 ”的同义词为 嗜好,喜好,业余爱好, 偏好,偏爱,偏袒 , 喜欢 。 概念编号 i 01745360 0.4 00273902 1.0 04463325 0.25 04700175 0.75 05565069 0.125 05608483 0.125 05573285 0.75

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。