基于知网的词汇语义相似度计算1刘群料李素建tliuqun,lisujiant中国科学院计算技术研究所*北京大学计算语言学研究所摘要:知网是一部比较详尽的语义知识词典。在基于实例的机器翻译中,词语相似度计算是一个重要的环节。不过,由于知网中对于一个词的语义采用的是一种多维的知识表示形式,这给词语相似度的计算带来了麻烦。这一点与WordNet和同义词词林不同。在WordNet和同义词词林中,所有同类的语义项(WordNet的synset或同义词词林的词群)构成一个树状结构,要计算语义项之间的距离,只要计算树状结构中相应结点的距离即可。而在知网中词语相似度的计算存在以下问题:1每一个词的语义描述由多个义原组成,例如“暗箱”一词的语义描述为:part|部件,tool|用具,body|身,“写信”一词的语义描述为:#TakePicture|拍摄writeI写,ContentProduct=letterI信件;2词语的语义描述中各个义原并不是平等的,它们之间有着复杂的关系,通过一种专门的知识描述语言来表示。