资源描述
1,复习提纲,《中文信息处理概论》
徐润华,2014年秋季,2,语言信息处理,语言信息处理就是用计算机对自然语言在各个层次(语素、词、短语、句子、段落、篇章)上的各种表现形式(图像、声音、文本)的信息进行处理:输入、输出、转换、存储、压缩、检索、抽取和提炼。
涉及智能处理时往往是“用计算模型”而非仅仅是“用计算机”。,3,语言信息的抽取和提炼,数据是具体的,知识是概括的。
目前是数据太多而知识太少,信息爆炸但又面临知识获取的瓶颈问题。
数据挖掘从数据仓库中挖掘知识,语言信息处理则要从语料库中挖掘语言知识。,4,中文信息处理的特殊性,汉字的特殊性:字数多,简体、繁体和异体,与外文字符的协调处理。
书面汉语的特殊性:需要进行词语切分。
汉语语音的特殊性:语音系统简单。
汉语语法的特殊性:形态贫乏 。,5,中文信息处理的研究内容,基础研究:包括汉字字符集的编码体系,中文信息处理的发展战略和基本方法,汉语计算模型,汉语语料库和语言知识库的建设,系统自动评测,等等。
应用研究:面向最终用户的系统软件和应用软件的设计和研制。,6,中文信息处理的一些基础性技术研究课题,自动分词:将口语或书面语中的词切开(词是基本的语言单位,很多应用研究需要先自动分词)。
词性标注:标出词在具体上下文中的词类(词性序列目前是大多数句法分析器的输入)。
词义标注:标出词在具体上下文中的义项或义类(服务于信息检索、机器翻译等应用研究)。
句法分析:分析出句子中每个语法形式的结构关系和所处层次(服务于机器翻译等应用研究)。,7,中文信息处理的一些应用研究课题,汉字识别(印刷体识别,手写识别,图片、视频中的汉字识别)
汉语语音识别(自动听写,口语查询,口语命令)
汉语语音合成(朗读机,自动查询中的口语反馈)
汉语信息检索(搜索引擎,自动文摘,文本分类)
汉外机器翻译(例如Google的在线翻译)
其他:汉字输入法,自动校对,机器辅助词典编撰,机器辅助汉语、汉字教学,少数民族语言信息处理,古代汉语信息处理,等等。,8,基于规则的方法,用确定性的规则来做问题求解。理性主义方法。
优势:便于利用专家知识,无须先做人工标注。
困难:专家知识可能不全面、不充分或不适用。
自动分词的最大匹配法是一种基于规则的方法,用待切分汉字串中的子串去查词表,查到了就算是词(优先查找较长子串)。例如:
这 首 诗 太平 淡 了
“太平淡”应该切成“太/平淡”还是“太平/淡”?汉语词汇学没有提供这种知识。,9,基于统计的方法,把从语料库中得到的统计数据作为模型参数,用模型来做问题求解。经验主义方法。
优势:系统容易构造,效果通常不错。
困难:数据稀疏,领域转移困难。
自动分词的概率方法是一种基于统计的方法,根据词频表将待切分字串中所有可能的词都找出来,然后求出一种概率乘积最大的切分。例如“太平淡”的各种可能切分中第一种概率乘积最大:
太 平淡 太平 淡 太 平 淡,10,训练集、开发集、测试集,通常把经过人工标注或人工校对的实验用语料库划分为训练集、开发集、测试集三个集合,训练集用于提供模型参数,开发集用于实验过程中检验和改进模型性能,测试集用于实验结束后最终评判模型性能。
计算机只能从训练集里学习模型参数。开发集和测试集则都是作为评测的标准答案。
例如,将实验用语料划分为10份,其中开发集和测试集各1份,其余8份作为训练集。,11,常用的性能评价指标,正确率:又称精确率(Precision),正确处理的实例个数占所处理的实例个数的比率。例如,人名识别的正确率等于正确识别的人名个数除以系统认为是人名的个数。
召回率:(Recall),正确处理的实例个数占应该处理的实例个数的比率。例如,人名识别的召回率等于正确识别的人名个数除以文本中实有的人名个数。
调和平均值:(F-measure),正确率和召回率的综合表示,F=(2+1)PR/(2R+P), 通常取=1,则F=2PR/(R+P).,12,测试,封闭测试:运用从训练集里获取的数据(模型参数或规则)来测试训练集本身,目的是对模型的性能有初步了解。但是,封闭测试成绩可能主要反映模型对训练集的过度学习(学了太多琐碎的、依赖于罕见语境的数据)。
开放测试:运用从训练集里获取的数据来对测试集进行测试,目的是检验知识的覆盖能力。开放测试成绩通常低于封闭测试,但能够更真实地反映模型性能。,13,字型,用同一方法制作的字符造型的集合。根据造型方法可分为三类 :
点阵字型:用m×n像素阵列表示字符造型,占用空间大,缩放质量难以保证 。
矢量字型:用一组折线表示字符造型,占用空间小,但放大字号时不够美观 。
轮廓字型:用一组直线或曲线表示字符内外轮廓,字型质量高,占用空间小,可无级变倍,目前视窗平台一般使用轮廓字型 。,14,字节、字符和编码字符集,字节是计算机上信息存取的基本单位,一个字节是8个二进制位,可表示28=256种状态。
字符是文字单位,一个字符可以是一个字节,如ASCII字符,也可以由多个字节表示,如汉字。汉字字符集规模远大于256,因此不可能只用一个字节来表示。
将一批字符统一编码,让字符跟整数一一对应,以便于在计算机上表示,就形成一个编码字符集。,15,ASCII字符,在计算机上,西文字符的编码一般是由美国的标准信息交换码体系规定的,通称“ASCII码”,该标准已被国际标准化组织接受为国际标准。
ASCII码的7位版本,包括10个阿拉伯数字、52个大小写英文字母、32个标点符号和运算符以及34个控制码,共计128个字符(27=128)。一个字节有8位,7位ASCII码只用后边7位,最高位是0 ,可以此区分ASCII字符与双字节字符。
编码空间的争夺,“先入为主”:其他文字(包括中文)的编码需避开此一空间。,16,中国《信息交换用汉字编码字符集·基本集》(GB2312-80),信息交换用,与国际标准ISO 2022相容 。
每个字符用两个字节编码,两个字节取值范围都是161~254,编码空间为94×94=8836 。
按字形编码,多音字一码,同音字多码。
6763个通用汉字 ,加其他字符共7445个。
一级汉字3755个,按拼音排序;二级汉字3008个,按部首排序。
第一个汉字“啊”,编码为176, 161。
最后一个汉字“齄”,编码为247, 254。,17,Big5:台湾地区的汉字字符集编码,通行于中国台湾地区和港澳地区。
可用于信息交换和信息处理。
通常叫做“繁体中文”。分为常用字和次常用字两个字面,每个字面都按照笔画数和部首来排序。
编码空间为:第一字节161~254,第二字节64~126,161~254,共有14758个码位。也是94区,但每区有94+63位。,18,GB13000(GBK):汉字内码扩展规范,GB13000(GBK)是一个指导性规范,由电子部科技质量司和国家技术监督局标准化司于1995年12月颁布,可用于信息交换和信息处理。
其编码空间为:第一字节为129~254,第二字节为64~254(缺127),共有23940个码位,其中汉字20907个。
GBK兼容GB2312-80的所有汉字(6763个汉字的代码有简单的对应关系),而且在字汇一级支持CJK,涵盖Big5(但代码不一致)。
GBK缓解了汉字编码空间窄小的困难,但还不够。,19,等长码,对字符集中所有字符按固定的码长来编码,叫做等长码。例如ASCII码是每个字符占一个字节、国标码、GBK和UTF-16都是每个字符占两个字节。
等长码的缺点是缺乏灵活性:编码空间小,则能够使用的字符少;编码空间大,则文本空间浪费大。
例如,一个文本主要是英文字符,有少量汉字,用UTF-16则浪费大量空间。
又如,一些中文古籍用GBK编码仍然不够,若汉字使用三字节等长码,由于绝大多数汉字只需两字节,因此文本存储空间浪费一半。,20,等长码:UTF-16(Unicode),各种字符(包括中英文)都是16位编码。每个字符映射为一个短整数(0~65535),计算机处理更方便。
有Little-endian和Big-endian两种形式。前者低位字节在前,Word软件中简称Unicode;后者高位字节在前。例如“買”字的Unicode编码是36023,前者存储为16进制的B78C,后者存储为16进制的8CB7,即分别为二进制的:
B 7 8 C
(11×16+7)+ (8×16+12)×256 =36023
(8×16+12)×256+ (11×16+7) =36023
8 C B 7,21,变长码,若码长不固定,则称为变长码。如UTF-8 和GB18030,其中ASCII字符用一个字节表示,汉字用2~4个字节表示。
变长码的优点:能有效地解决编码空间与文本存储空间的矛盾。
变长码的缺点:使用变长码时,要有办法识别字符界限。因此编程时比较麻烦。(麻烦留给程序员,方便留给用户。),22,变长码:GB18030-2000,《信息交换用汉字编码字符集基本集的扩充》,是由信息产业部和国家质量技术监督局在2000年6月17日联合发布的,并作为一项强制性国家标准在2001年9月1日后正式执行。
单字节字符:0~127,兼容ASCII字符。
双字节字符:第一字节129~254,第二字节64~254(不包括127),兼容GBK字符。
四字节字符:第一字节129~254,第二字节48~57,第三字节129~254 ,第四字节48~57,共有1587600个码位。例如“𦗓”:151, 50, 217, 51,23,GB18030如何表示字符界限?,下面是一个GB18030编码的文本(每个字节用十进制整数表示):
150 55 206 57 185 214 206 70 97 48
请问这里面有几个字符?每个字符由哪几个字节组成?,24,GB18030-2000的优点,这一标准既解决了“汉字稀少文本”的存储问题,又解决了超大汉字字符集文本的存储问题。
所有的ASCII文本当然也是GB18030编码的文本。
兼容GBK编码,因此原先GB2312或GBK编码的文本当然也是GB18030编码的文本。
Windows操作系统对GB18030支持不够。,25,变长码:UTF8,UTF8是Unicode的另一种具体实现,字符长度不限,每个字节都有标志位,便于识别,如:
单字节:0*******,表示ASCII字符
双字节:110***** 10******
三字节:1110**** 10****** 10******
四字节:11110*** 10****** 10****** 10******
以英文字符为主体的文本,如果用UTF16存储则太浪费空间,变长码UTF-8解决了这一问题。
汉字16位编码,用三个字节,将8个标志位去掉便是汉字的UTF-16编码。,26,常见编码字符集一览表,27,汉字的输入码,汉字输入法也叫汉字编码,所编的是输入码,又叫“外码”,指键位表示(击键序列),不同于字符集编码(“内码”)。
外码是为键盘输入服务的,内码是为信息交换和信息处理服务的。输入法的目的就是要将汉字的外码转换为内码。
一个汉字字形只有一个内码,但在一种输入法可以有多个外码,例如“我”在基于拼音的输入法中有“w”、“wo”等外码。,28,输入码中的“重码”,一个内码只表示一个汉字。但在一些输入法中,一个外码可以表示几个汉字,这叫“重码”。重码就是输入码的歧义。例如在基于拼音的输入法中,“wo”可表示“我”、“握”、“窝”等。
字符集编码以汉字字形为单位,输入码可以以字、词、字串和句子为单位。因此不仅单字有重码,词也有重码,例如“wm”可表示“我们”、“文明”、“外面”等。,29,汉字键盘输入编码,码元:用来给汉字编码的汉字特征信息元素(如音素、声韵、笔画、字根、部件等),码元的集合叫做码元集。
键元:输入汉字时的击键(如字母键、数字键等),键元的集合叫做键元集
编码方案:码元集对键元集的映射,以及一组完整的编码规则。
汉字输入编码的主要矛盾是输入速度与易学性的矛盾:输入快的难学,易学的速度不快。,30,衡量汉字识别能力的指标,识别率:正确识别的文字对全部输入文字的比率。
拒识率:拒绝识别(无法识别)的文字对全部输入文字的比率。
误识率:错误识别的文字对全部输入文字的比率。,31,概率(probability),设样本空间Ω中共有n个样本点,事件A有m个,则事件A的概率为: P(A) = m / n
例:一个语料库有835万词次,其中单词“为”出现3万次。若从该语料库中随机挑选一个词,这个词恰好是“为”的概率是多少?
解:语料库规模足够大,可用相对频率来近似概率。此时Ω中共有835万个样本点,事件A(单词是“为”)有3万个样本点,因此P(A)为3/835.,32,概率的性质,非负性:P(A) ≥ 0
规范性:P(Ω) = 1 (Ω表示全部基本事件)
可加性:对于无穷多个事件A1,A2,...,如果事件两两互不相容(相互独立),则 P(∪Ai)=ΣP(Ai)
例:如果“为”字仅有两种读音,读wei4的概率为0.6,那么“为”字读音wei2的概率是多少?
解:利用概率的规范性和可加性,“为”字读音wei2的概率是 1-0.6=0.4,33,联合概率(Joint Probability),P(AB)是事件A和B都发生的概率,叫联合概率。
P(AB) = P(BA).
例:求某字写做“为”且读音是wei4的概率。
解:这里P(A)是“为”字的概率,P(B)是读音wei4的概率。求P(AB)的方法之一是从语料库中统计“为”读wei4的次数,用它除以该语料库所有字符的出现次数。
已知P(A)和P(B),是否可以据此求出P(AB)呢?,34,条件概率(conditional probability),已知事件B发生的条件下事件A的概率叫做A的条件概率:
,P(B) < 0
由上式我们得出求联合概率的另一种方法:
P(AB) = P(A) P(B|A) = P(B) P(A|B)
当且仅当P(B|A)=P(B),(A的发生对于B的发生毫无影响,既不促发也不抑制),有P(AB)=P(A)P(B)。,,35,条件概率的计算,例:求“为”字读音是wei4的概率。
解:已知所考察的字是“为”,在这种情况下求它读音是wei4的概率。因此这是求条件概率。
P(Z读音wei4 | Z写做“为”)
= P(Z写做“为”且Z读音wei4) / P(Z写做“为”)
= (“为”读wei4的次数 / 所有字符的出现次数)
÷ (“为”的出现次数/所有字符的出现次数)
= “为”读wei4的次数 / “为”的出现次数,36,转移概率(transitive probability),转移概率是从一个状态转移到另一个状态的概率,亦即事件先后发生的条件概率。
P(W2=“的” | W1=“绿油油”),两事件先后发生,因此既是条件概率,也是转移概率。
P(Wi=“编辑” | Ti=名词),两事件同时发生,因此只是条件概率,不是转移概率。,37,自信息(Self-Information),随机变量X有若干个取值,它取值为x是一随机事件,该事件的概率的负对数叫做该事件的自信息:
I(x) = - log2 P(x)
自信息可理解为成功猜测某事件所需最多次数。(猜测过程中,对方只回答是或否,不提供其他信息。)
例:若硬币朝上概率为0.5,则猜测次数为 -log0.5=2
例:若骰子点数为3的概率为1/6,则猜测次数为
-log(1/6)=2.585
例:若“间”读阴平的概率是0.97,则猜测次数为
-log(0.97)=0.044,38,熵(Entropy),熵是随机变量的各相关事件的自信息的概率加权平均值:
熵是随机变量的不确定性的度量,熵越大表明不确定性越大,熵为0时表示完全可以确定。,,39,熵的计算,例:掷硬币有两种结果,假定正面朝上和反面朝上的概率都是0.5;掷骰子有6种结果,假定每种结果的概率都是1/6。掷硬币的结果与掷骰子的结果这两个随机变量的熵孰大孰小?
解:H(掷硬币)=-2(0.5log0.5)=log2=1.0
H(掷骰子)=-6((1/6)log(1/6))=log6=2.58
掷骰子的结果这个随机变量的熵较大。由此可见,随机变量的分布同样均匀时,分布越广的,熵越大。,40,熵的计算,例:据统计,“间”读阴平的概率是0.97,读去声的概率是0.03;“藏”读zang4的概率是0.56,读cang2的概率是0.44。“间”的读音和“藏”的读音这两个随机变量孰大孰小?
解:H(“间”的读音)
=-0.97log0.97-0.03log0.03 = 0.19
H(“藏”的读音)
=-0.56log0.56-0.44log0.44 = 0.99
“藏”的读音这个随机变量的熵较大。由此可见,概率分布广度相同时,分布越均匀的,熵越大。,互信息(Mutual Information),如果X和Y是一对随机变量,其概率分布为p(xy),则互信息 I(X; Y)定义为知道Y值后X的不确定性的减少量:,,42,点式互信息(pointwise mutual information),点式互信息可用来衡量两事件的相关程度。
点式互信息为正值(log底数大于1),表明两事件正相关;点式互信息为0(log底数为1),表明两事件无关,点式互信息为负值(log底数小于1),表明两事件互相排斥。
上式的约束条件:三个概率均不为0。,,43,点式互信息的计算,例:某语料库规模 R=1606115字次,“昂”出现40次,“扬”出现308次,“昂扬”出现7次,求“昂”和“扬”的互信息。
解:I(“昂”;“扬”)
=log(P(7/R) / P(40/R) / P(308)/R)=9.83
例:语料库同上,“的”出现55202次,“扬的”出现14次,求“扬”和“的”的互信息。
解:I(“扬”;“的”)
=log(P(14/R) / P(308/R) / P(55202)/R)=0.4,44,分类(Classification),分类是把样本归入已知类别,是有指导的(分类体系就是一种指导),聚类则是自动建立分类体系并将样本归入这些类别,是无指导的。
自然语言处理的根本问题是歧义消解:分词歧义消解、词汇歧义消解、词性歧义消解、句法歧义消解,等等。
歧义消解就是分类。例如,已知某兼类词有哪几个词性,要将它在文本中的每个词例一一归类。语言模型的基本作用就是分类,就是消解歧义。,45,中文自动分词的必要性,文本分析的第一道工序
信息检索的预处理:提高查准率
语音合成的预处理:降低读音复杂性
汉字识别的后处理:提高识别正确率
语音识别的后处理:提高识别正确率
计算机辅助词典编撰:新词、新义项获取,46,最大匹配法,分词思想:长度最小的词串是最佳词串。
匹配:将汉字串跟底表中的词进行比较。
最大:长词优先,或称“最少分词法”。
社会主义/市场/经济/
而不切分为:
社会/主义/市场/经济/
长词优先原则在绝大多数情况下是对的。,47,最大匹配法的几个要点,底表:词语的静态查找表,是关于“什么是词”的明确定义,不需要词频数据,也不必将单字词列入。
最大词长:底表中最长词的长度,以字符为单位计算。
候选词:从某位置开始截取的一个字符串,初始长度为最大词长,或者剩余串长(当剩余串长小于最大词长时)。
候选词在底表中查找成功,便确定为词,找不到则将候选词末尾减一字,继续查找。
候选词长度为1时不必查找,默认为词。,48,,最大匹配法分词示例:,“时间就是” 查表失败,输入字串:时间就是生命,输出词串:,底表
------
时间
生命
......,候选词: 时间就是,最大词长:4,“时间就” 查表失败,输入字串:时间就是生命,输出词串:,底表
------
时间
生命
......,候选词: 时间就,最大词长:4,“时间” 查表成功,输入字串:时间就是生命,输出词串:,底表
------
时间
生命
......,候选词: 时间,最大词长:4,,将“时间”添加到输出串,输入字串:就是生命,输出词串:时间/,底表
------
时间
生命
......,候选词:,最大词长:4,“就是生命” 查表失败,输入字串:就是生命,输出词串:时间/,底表
------
时间
生命
......,候选词: 就是生命,最大词长:4,“就是生” 查表失败,输入字串:就是生命,输出词串:时间/,底表
------
时间
生命
......,候选词: 就是生,最大词长:4,“就是” 查表失败,输入字串:就是生命,输出词串:时间/,底表
------
时间
生命
......,候选词: 就是,最大词长:4,单字不用查表,默认为词,输入字串:就是生命,输出词串:时间/,底表
------
时间
生命
......,候选词: 就,最大词长:4,将“就”添加到输出串,输入字串:是生命,输出词串:时间/就/,底表
------
时间
生命
......,候选词:,最大词长:4,“是生命” 查表失败,输入字串:是生命,输出词串:时间/就/,底表
------
时间
生命
......,候选词: 是生命,最大词长:4,“是生” 查表失败,输入字串:是生命,输出词串:时间/就/,底表
------
时间
生命
......,候选词: 是生,最大词长:4,单字不用查表,默认为词,输入字串:是生命,输出词串:时间/就/,底表
------
时间
生命
......,候选词: 是,最大词长:4,将“是”添加到输出串,输入字串:生命,输出词串:时间/就/是/,底表
------
时间
生命
......,候选词:,最大词长:4,“生命” 查表成功,输入字串:生命,输出词串:时间/就/是/,底表
------
时间
生命
......,候选词: 生命,最大词长:4,,将“生命”添加到输出串,输入字串:,输出词串:时间/就/是/生命/,底表
------
时间
生命
......,候选词:,最大词长:4,64,减字匹配和加字匹配,减字匹配需要预定最大词长(最大匹配法)(查找成功终止)。
加字匹配无需预定最大词长(查找失败终止)。基本思想是:
先设k=1;
查词表中有没有与待切分串前k字相同的词,若无,则查找失败。
若有,则k=k+1,重复步骤2-3.
加字匹配能减少许多无谓的查找。,65,正向匹配与逆向匹配,正向匹配:从串首开始做最大匹配,直到串尾。
逆向匹配:从串尾开始做最大匹配,直到串首。
据报道,逆向最大匹配比正向最大匹配的正确率要略高一些。,66,中文自动分词的三大难题,未登录词:自动分词主要是根据底表来进行的,真实文本中存在大量的未见于底表的词语,它对自动分词正确率的影响最大。
分词歧义:根据底表,一个串可以切开也可以不切开(组合性歧义),或者可以切在这里也可以切在那里(交集型歧义),但从上下文来看,至少有一种切法是不正确的。
分词不一致:上下文相同或相似情况下,一个串在分词语料库中有多种切法,也许几种切法都有道理,但应该保持一致。,67,分词歧义,组合型歧义,例如:
从 马上 跳 下来
他 将来 我 校 讲学
交集型歧义,例如:
使用户 满意
研究生命 的 起源
组合型歧义出现概率低,消解更为困难。,68,交集型歧义,如果一个字串有多种切分位置,并且每个字在不同切法中属于不同的词,那么这个字串称为交集型歧义字串,例如,“这篇文章太平淡了”。
链长:交集型歧义字串中相互交叠的词的个数,例如“提高人民生活水平”链长为7
歧义切分中,交集型歧义约为90%,其中链长为2和3的占90%.,69,交集型歧义字串,最大交集型歧义字串:句子中不被别的交集型歧义字串所包含的交集型歧义字串,例如“你任何时候都可以来找我” 。
真歧义:存在两种以上经常可实现的切分形式
我国首次将卫星导航技术应用/于/植物保护
按规定,变价收入应/用于/固定资产的更新改造
伪歧义:实际上只有一种可实现的切分形式,如“任何时候”、“充分发挥”
准伪歧义:基本上只有一种可实现的切分形式,如“主要是”,70,组合型歧义,定义一:如果一个字串是词,并且还可以看作是一个词串(至少包含两个词,每个词互不交叠),那么这个字串就称为组合型歧义字串。
根据一个8.7万词的词表,组合型歧义字段共73470个,占84%,太多了!
定义二:……并且在足够大的语料库中同时出现过两种切分形式……
定义二还不够严密,没跟切分不一致区别开来。,71,现有分词歧义消解方法的不足,交集型歧义消解
基于记忆的方法简单有效,但这是一种颗粒度极细的语言知识,难以大幅度提高其覆盖度(据报道只能覆盖50%)。
基于词频的方法没有考虑单字词词频,有时会导致错误的选择。
组合型歧义消解
穷尽组合型歧义字串是一个困难的任务。
每种组合型字串的歧义消解知识都是个性化的,无法推广到其他字串。,72,N元模型(Ngram),N元模型认为,状态序列中的某个状态是否出现,只与它前面的N-1个状态有关(马尔科夫假设)。
N元模型求序列W的概率时,是在概率乘法定理基础上的简化。大大减少了计算量,缓解了数据稀疏问题。
马尔科夫假设并不完全符合语言实际。这既是模型的一个缺点,但同时也是为了实用而付出的必要代价。,73,Ngram举例,从词串“提高 人民 生活 水平”中,可提取:
Bigrams:提高 人民,人民 生活,生活 水平
Tigrams:提高 人民 生活,人民 生活 水平
从字串“提高人民生活水平”中,可提取:
Bigrams:提高,高人,人民,民生,生活,
活水,水平
Tigrams:提高人,高人民,人民生,民生活,
生活水,活水平,74,N元模型可以做什么?,N元模型用于解决序列构成问题。例如:
汉字识别后处理,由于每个位置上是什么汉字都可能有多种选择,因此可构成多种汉字序列。问题是,哪种汉字序列是正确的?
中文自动分词,由哪些候选词构成词序列,虽然有一些限制,但仍然有许多选择。问题是,哪种词序列是正确的?,命名实体(Named Entity),命名实体是一种专指性词项。它有五种特性:
指称性:用来指示或称说某些事物,以便将这些事物跟其他事物区分开来。不是所有的词语都有指称性,例如形容词表示事物的性质,动词表示动作或行为。代词、名词通常都有指称性。
专门性:专门用来指示或称说某一个事物,以便将这个事物跟同类的其他事物区分开来。例如,“教授”、“年轻的教授”都是对一类人的指称,而“李教授”则是对某一个姓李的教授的指称。(注意, “李教授”绝不是对所有姓李的教授的指称)。,命名实体(续),词汇性:命名实体属于词汇,词汇成员包括词和固定词组。组织名通常是固定词组,固定词组中一般不含虚词。凭句法手段构造的自由词组也可用来指称某个个体,例如,“这粒沙子。这些自由词组不属于词汇,当然也不是命名实体。
开放性:命名实体是词汇中最直接反映客观世界变化的部分。新事物不断产生,而且往往对我们特别有重要性,需要命名,所以命名实体的数量往往非常庞大,而且层出不穷,难以胜数。
可替换性:每一类(或每一小类)中的命名实体之间是可以替换的。替换之后语法上、语义上仍然是成立的,尽管可能不符合事实。,命名实体识别的意义,命名实体识别(Named Entity Recognition):将文本中表示命名实体的词或词序列标注出其所属类别,如人名、地名、机构名等等。
未登录词中,命名实体是重要的组成部分,并且许多命名实体是开放类,无法穷尽登录的。做好命名实体识别,有助于提高未登录词识别的正确率和召回率。,命名实体识别的评测,命名实体:人名、地名、组织机构名、商标品牌名、外族人名、地名的汉译名、日期、时间、数字,等等。
2004年863命名实体识别评测最好成绩:总F值0.82,地名0.83,人名0.86,机构名0.61,日期0.85,时间0.85,数字0.93.
由上可以看出,在各类命名实体中,数字识别最容易,机构名识别最困难(因为机构名往往是由多个词语组成)。,命名实体识别的可用特征,命名实体(例如人名)常常有连续出现的情况,如果其中某个已经被识别为命名实体,利用搭配约束可提高识别其余命名实体的效果。
一个命名实体往往在初次出现时具有较丰富的上下文特征,以后出现时则不一定总带着这些特征。利用篇章约束可以提高其后续出现的识别效果。,
展开阅读全文
相关搜索