1、1基于语义角色的中文时间表达式识别【摘要】本文提出了基于语义角色的中文时间表达式识别方法,该方案首先对传统的特征进行抽取,然后根据中文时间的表达式特点加入了语义角色,从而构造了新的特征向量,然后使用条件随机场法进行识别。该方案的识别率能够得到显著的提高。 【关键词】语义角色 特征向量 中文时间表达式 条件随机场法 一、前言 在自然语言的处理领域,时间表达式的识别应用非常广泛,例如,自动回答系统中答复关于时间的问题,机器翻译中对时态的翻译,以及对文档进行基于时序信息的排序等。所以,提高时间表达式的识别率对提高上述系统的准确度具有重要的意义。时间表达式的识别研究已经成为构建其他相关系统的必要基础性
2、工作。最近几年来,相关方面的研究已经取得了重要的进展,2004 年美国 NIST(国家标准技术研究所)第一次提出了对时间表达式的规范化和识别任务,其标准为 TIMEX2,我国在中文时间表达式的识别方面也有很大的发展。本文提出了基于语义角色的中文时间表达式识别方法,该方案首先对传统的特征进行抽取,然后根据中文时间的表达式特点加入了语义角色,从而构造了新的特征向量,然后使用条件随机场法进行识别。 二、基于语义角色的特征提取 (一)常用特征。 2本文的特征抽取词主要包括中文时间词特征、扩展词特征和上下文特征三类。 1.中文时间词特征包括中文常用的时间特征词,例如“今年” 、 “周三”等信息。应用这些
3、信息构成词典,然后再根据词典构造特征; 2.扩展特征包括上位词和同义词两类,是指词的同义词和上位词; 3.上下文特征包括主体词、词性和该词的上下两词。这是最简单和最基本的特征信息。 (二)基于语义角色的中文表达式特征。 语义角色是口语分析的重要表现方式,通常应用谓词-动词-角色的结构,为了对谓语动词中的句法成分进行语义角色标注,要给每个角色指定一个含义。按照 CPB 的规定,一共包括 20 多种角色,其中核心角色六个,其余的角色包括附加角色、地点角色和时间角色等。 语义角色标注不需要依靠具体的中文时间词,因为它代表了整个句子浅层的语法结构。因此,语义角色对谓词与谓词框架下其他词语间的关系进行了
4、表示,同时还表示了谓词不同成分间的关系。所以,将语义角色等特征引入时间表达式识别中来,能够在很大程度上提高特征提取的效果。 因为时间表达式识别是一个机器学习算法过程,所以可以使用方法的时间表达式识别本身就是一个序列 CRFs 模型分类器。 (二)识别方案。 本文基于上述特征提取方案,提出了对中文时间表达式进行识别的机器学习方案。该方案首先以上文中提取的时间序列特征为基础,然后3利用 CRFs 方法建立分类器,最后应用 TIMEX3 标准对时间表达式进行识别。具体的实现步骤如下所示: 1.对原始语料进行预处理:原始语料还存在一定的干扰信息,因此首先对原始语料进行句法分析、语义标注、词性标注等处理
5、。 2.特征抽取过程:完成语料预处理以后,可以先将每个词的角色特征和常用特征抽取出来,由此构造特征向量。 3.构造训练分类器:应用特征向量来对 CRFs 分类器进行训练。 4.表达式识别:使用得到的 CRFs 模型对测试语料中的表达式进行识别。 四、结论 基于语义角色的特征提取方式是实现中文时间表达式识别的重要方式,通过语义角色能够对事件的地点、时间、受事者和施事者等信息进行提取。因此,本文提出了一种基于语义角色的中文时间表达式识别方法,能够基于传统的特征抽取,与基于语义角色的特征提取相结合,构造新的特征向量,然后使用条件随机场法进行识别。该方案的识别率较高,但是由于中文的时间表达式还有很多方式,这会对识别效果产生一定的影响,因此,还需要进一步的工作,以提高模型识别的精度和效率。参考文献: 1林静,曹德芳,苑春法.中文时间信息的 TIMEX2 自动标注J.清华大学学报:自然科学版,2008,48(1). 2刘莉,何中市,邢欣来等.基于语义角色的中文时间表达式识别4J.计算机应用研究,2011,28(7).