1、中文同义词自动抽取研究 南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生 目录 基于语义词典的方法 基于 同义词词林(扩展版) 基于中文概念词典 CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 目录 基于语义词典的方法 基于 同义词词林(扩展版) 基于中文概念词典 CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 同义词词林(扩展版) 在 同义词词林(扩展版) 中,编码末尾为 = 的词语集合表示的是同一个 语义 。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的
2、词语集合。 目标词 “ 规则 ”对应的同义词集合: Di24A01= 规则 守则 准则 则 规 律 章法 轨道 清规 戒律 规例 规约 目录 基于语义词典的方法 基于 同义词词林(扩展版) 基于中文概念词典 CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法 中文概念词典 CCD CCD中使用 Synset字段来描述 概念。 但是在 Synset中的 词语并不完全是同义词, 而是某种意义上的 相关 词 。 一 个 词语也可能 出现在多 个 Synset中 。 如 目标词 “ 爱好 ” : 概念编号 定义 Synset 01745360 吸引普通大众 喜好
3、 流行 爱好 盛行 风行 00273902 一种附属的活动 嗜好 爱好 业余爱好 基于中文概念词典 本文提出基于 典型同义词 的过滤方法。 基本思想: 在包含目标词的 Synset中统计出典型同义词。 使用典型同义词按照一定规则在 Synset中过滤出同义词。 典型同义词统计方法 典型同义词统计方法 基于典型同义词的过滤算法 最终“ 爱好 ”的同义词为 嗜好,喜好,业余爱好, 偏好,偏爱,偏袒 , 喜欢 。 概念编号 i 01745360 0.4 00273902 1.0 04463325 0.25 04700175 0.75 05565069 0.125 05608483 0.125 05573285 0.75