精选优质文档-倾情为你奉上大规模句子相似度计算方法* 基金项目:国家自然科学基金资助项目(,);国家863计划基金资助项目(2002AA-02)。作者简介:黄河燕(1963-),女,研究员,博士生导师,主要研究方向为自然语言处理与机器翻译、大型智能应用系统;陈肇雄(1961-),男,研究员,博士生导师,主要研究方向为自然语言处理、大型智能应用系统;张孝飞(1970-),男,副研究员,博士,主要研究方向为自然语言处理、机器翻译、信息检索。张克亮(1964-),男,副教授,博士后,主要研究方向为计算语言学、机器翻译。黄河燕1 陈肇雄1 张孝飞1 张克亮1,2(1中国科学院计算机语言信息工程研究中心 北京 2 南京理工大学 南京 )Email: 摘要:如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关键问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息熵从大规模语料库中选择出少量候选实例,然后针对这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统