1、1,第五章 自动标引,2,本章内容提要,自动标引基本原理自动标引的主要方法和技术汉语自动标引,3,第一节 自动标引的基本原理,自动标引的定义、类型自动标引的意义自动标引的流程自动标引的原理,4,1 自动标引的定义,自动标引(Automatic Indexing),又称计算机辅助标引(Computer Aided Indexing),是根据文献内容,依靠计算机系统全部或部分地自动给出标引符号的过程。换句话说,就是利用计算机系统模仿人的标引活动并自动生成情报检索所需的索引符号的过程。,5,2 自动标引的类型,按人工介入与否分为全自动标引与半自动标引。按标引词来源分为自动抽词标引与自动赋词标引。,6
2、,7,8,9,3 自动标引的意义,1.适应信息资源快速增长的需要 加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。 信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。,10,3 自动标引的意义,2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。 与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势:处理能力强处理速度快成本低一致性好,稳定性好,11,3
3、自动标引的意义,美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。,12,3 自动标引的意义,自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对
4、同一篇文献总能标引出相同的主题词。,13,3 自动标引的意义,美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。,14,4 自动标引的流程,获得机器可读的待标文献语句分析(难点)语词加权(难点)确定标引词的权阈值(难点)选出标引词转换文档生成与索引编辑输出反馈,15,自动标引工作流程图,16,确定标引源,即确定标引所依据的文献内容(标引源)。标引源的选择是影响标引质量的一个重要因素。标题是自动标引的主要标引源。但仅以标题为标引源,信息量少,标引质量差
5、,难以推广使用。如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。,17,确定标引源,一般选择以下内容作为标引源:1.标题:包括文章的主标题、章节标题、小结标题等。这是首选标引源。2.文摘:较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定5-6个最重要的词。3.首尾章节:科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。,18,确定标引源,4.章节的首尾段:常反映章节讨论的主题,替代整个章节,节省大量无效劳动。5.段落的首尾句:国外有学者对科技文献的200个段落进行了主题句的分析,结果:85%的段落主题
6、句是段落的第一句,7%的段落主题句是最后一句。用段落首尾句替代整个段落,节省工作量,免除许多“杂音”。,19,输入标引源内容,标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。印刷型文献:手工录入或OCR(光学字符识别)输入 电子文档(XML、DOC、TXT等格式):直接导入,20,文档的预处理,字符内码的检测与转换:BIG5码与GB码的自动检测与转换。文档格式的检测与转换:去掉DOC、XML、RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。典型的如:网页清洗,21,分词处理,在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的
7、集合。西方文字有分隔符,切分容易实现。而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。,22,确定关键词,根据文本词语切分结果,以词语在文本中出现的频次、位置及词的词性等因素为依据,确定可表达文档中心内容的词作为该文档的关键词。,23,确定关键词,主要方法:绝对词频统计法:以词在文章中出现的绝对频次为根本依据确定文章的中心关键词,理论基础是齐夫定律。词频权重法:除考虑词频外,还考虑词的位置、词的词性、词本身的价值、词的长度等因素,对词进行加权,然后根据权值大小确定关键词。,24,转换为受控词,关键词与受控词(主题词、副主题词
8、、特征词)之间存在着一定的关系(如同义词关系、上位关系、下位关系等)。使用一定的方法,将以上提取的关键词转换为受控词。,25,转换为受控词,目前有效可行的方法包括:使用关键词-受控词对照表:该表含有关键词与规范化的主题词、副主题词、特征词之间的对照关系,由此对应转换。利用词汇相似度:大多数意义相同或相近的词之间字符全部或部分相同,关键词与主题词之间存在一定程度的相似性,可通过某些算法计算出来,根据相似性确定相应的主题词。 两种算法:基于词素的相似度算法;给予单汉字的字面相似度算法。 样例展示,26,以 “商务管理系统”和“商业管理系统”两复合词为例,两者的语义相似度计算步骤如下: 词组的切分利
9、用最大匹配法(MM法)将两词切分成义类词;“商务管理系统”切分为义类词:“商务”、“管理”、“系统”;“商业管理系统”切分为义类词:“商业”、“管理”、“系统”; 本系统中是采用正向最大匹配法进行义类词切分的。,基于语义相似度的分类方法,27, 语义编码的提取提取出存在于义类词库中的义类词所对应的语义编码;“商务”、“管理”、“系统”对应的语义编码分别为:Da010140、Hc020101、Dd060101;构成编码集S1=Da010140、Hc020101、Dd060101;“商业”、“管理”、“系统”对应的语义编码分别为:Di180203、Hc020101、Dd060101;构成编码集S2
10、=Di180203、Hc020101、Dd060101;,28,计算结果,Sim(“商务管理系统”,“商业管理系统”),29,识别结果示例,30,给出主题标识符,根据确定的主题词、副主题词、特征词,进行组配,给出主题标引符号,完成自动标引。,31,第二节 自动标引方法和技术,统计标引法(课堂只讲这种方法)概率标引法:根据文献满足提问的概率来估计句法分析标引法语义分析标引法人工智能标引法,32,Zipfs Law,齐普夫定律是由美国学者G.K.齐普夫于上世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数
11、在这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2,.,频次最小的词等级为D,。若用f表示频次,r 表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。,33,The 10 most common words in the Million-Word Brown Corpus,34,Zipfs law,35,Zipfs Law,与文献标引的关系把所有的词分高频词、中频词和低频词。 高频词:传递信息能小,多为虚词,标引能力低。中频词:传递信息能大,多为常用的术语。为标引时选词的最佳对象,专指度适中。低频词:传递信息能力极强。产生的原因较复杂。 可能是冷僻词,也可能是新引进的
12、概念。 可以选中频词和个别低频词标引作为文献标引的候选词。,36,A Frequency-Based Indexing Method,Eliminate common function words from the document texts by consulting a special dictionary, or stop list, containing a list of high frequency function words.Compute the term frequency tfij for all remaining terms Tj in each document
13、Di, specifying the number of occurrences of Tj in Di.Choose a threshold frequency T, and assign to each document Di all term Tj for which tfij T.,37,标引词加权,绝对频率加权法相对频率加权法逆文献频率加权法词区分度加权法信噪比加权法词相关度加权法,38,1 绝对频率加权法,20世纪50年代Luhn在Zipf定律基础上提出主要步骤 给定m篇文献组成的一个集合,设第k个词在第i篇文献中发生的频率fik。决定该词在整个文献集上的发生频率:fkfik按照f
14、k的大小将词降序排列,用试错法确定高频词和低频词的阈值。去掉高频词和低频词后,将余下的中频词选作标引词。,39,1 绝对频率加权法,特点简单、易实现,有一定实用性。世界上第一个自动标引算法。简单地排除高频词和低频词。词频不能全面刻画词在文本中的功能。,40,2 相对频率加权法,考虑的因素:词在某个特定文献内的使用频次词在特定领域内的使用频次方法:建立有关领域全部词汇的相对频率表;对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中的出现频次;将每个实词在特定文献内的频次与相对频率表进行比较。,41,3 逆文献频率加权标引法(IDF),If a term occurs with roug
15、hly the same frequency in many documents in a collection, the occurrence of the term is likely to be relatively unimportant in any of those documents If a term occurs with greater than average frequency in a few documents in a collection, the term is likely to be relatively important in those few do
16、cuments,42,3 逆文献频率加权标引法(IDF),前提假设:某词的重要性与它在特定文献中出现的频次成正比,而与该词在整个文献集合中出现的频率成反比。设Fik为词k在文献D中的出现频率,DFk为包含词k的文献数,称为词k的文献频率(DF,document frequency)标引词的权重设计如下:,WikFikDFk,其中,43,TF*IDF weight,44,4 词区分度加权法,Assumption: Documents that are “close together” in space are similar in meaning.,query,45,空间密度,文献集合D的矩心C
17、(Centroid)(在自动分类中,矩心也称作类目中心)为:C(Cd1,Cd2,Cdt),空间密度定义为所有文献对与矩心相关程度的总和,其中,S(C,Di)为文献Di与矩心C的相关程度。,46,4 词区分度加权法,词区分度(Term Discrimination Value)表示使用某个词作为标引词时,所具备的区分不同内容文献的能力。由萨尔顿提出。词区分度描述了词的区分能力,即词对文献的“分离”能力。,47,4 词区分度加权法,设Qk为去掉第k个标引词(也就是t维向量变成t-1维向量)后的文献空间密度,则词k的区分值定义为: DVkQkQQ不用词K作为标引词时的空间密度Qk用词K作为标引词时的
18、空间密度正值:区分能力好O:无影响负值:区分能力不好 DVK=0低频词DVK0,High frequencydvj0,N,Variations of Term-Discrimination Valuewith Document Frequency,52,4 词区分度加权法,加权函数为: WikFikDVk 词区分值加权标引与逆文献频率加权标引基本上是一致的。词的文献频率与词区分值有互逆关系。,53,wij = tfij x dvjcompared with : 随着文献频率的增加而稳定地降低dvj: 随着文献频率的增加区分度从零增加(低频到中频), 而随着文献频率的继续增加而急剧降低(中频到高
19、频)。,54,5 信噪比加权法,根据香农的信息论原理:当某些词作为标引词时,通过某个特定词,减少文献内容的不确定性。一个词出现的概率越小,对减少内容的不确定性就越大。丹尼斯提出了如下的加权函数:,55,5 信噪比加权法,SIGNAL为词k的信号值,噪声值测度表示该词的噪声值与该词在文献集合中的“集中度”成反比。如果一个词在文献集合中呈完全分布?不完全分布?噪声值有何变化?,56,6 词相关度加权法,在D上给定提问Q(t1,t2,tm),设初始文献标引采用未加权的二值标引系统,Q中词向量元素tk所对的标引词k出现与否所得到的检索结果如下表所示:,57,6 词相关度加权法,假设词的分布在所有文献中
20、均是独立的,相关性仅取决于检索词k在文献中出现的概率(频次)。Salton等人利用概率推导法得到了加权函数:,这种方法的缺点是R和rk的值到底是多少,难于准确得到。,58,第三节 汉语文本自动标引,汉语自动分词方法基于匹配的分词方法基于统计的分词方法基于理解的分词方法,59,词典法(Lexical Method),又称机械分词方法,是按照一定的策略将待分析的汉字串与切分词典系统中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。,60,词典法(Lexical Method),分词词典:停用词表:文献中词频很高或很低的词或字特例词表:如停用词“的”、“也”可组成“的士”、“也
21、门”等词。使用停用词表预切分前,利用特例词表将特例词保护起来。关键词表:系统分词的主要依据,必须尽量完备。人名、机构名和地名词表,61,词典法(Lexical Method),匹配算法:根据匹配方向不同:正向匹配、逆向匹配根据匹配长度不同:最大匹配法、最小匹配法最大正向匹配、最大逆向匹配最大匹配法切分的词长度大,专指性高,效果较好。目前使用较多。,62,词典法(Lexical Method),优点:便于实现,操作简单,实际应用较多。目前报道的切分准确率高达98%以上。缺点:歧义问题、词典问题、词缀问题、名称问题、译名问题实际使用的分词系统,将机械分词作为一种初分手段,再利用其他的语言信息进一步
22、提高切分准确率,如改进扫描方式、将分词与词类标注结合。,63,正向最大匹配分词(Forward Maximum Matching method, FMM),基本思想:设自动分词词典中最长词条所含汉字个数为I;取被处理材料当前字符串序数中的I个字作为匹配字段,查找分词词典。若词典中有这样的一个I字词,则匹配成功,匹配字段作为一个词被切分出来,转6;如果词典中找不到这样的一个I字词,则匹配失败;匹配字段去掉最后一个汉字,I-;重复2-4,直至切分成功为止;I重新赋初值,转2,直到切分出所有词为止。,64,分析,“市场/中国/有/企业/才能/发展/” 对交叉歧义和组合歧义没有什么好的解决办法错误切分
23、率为1169往往不单独使用,而是与其它方法配合使用,65,逆向最大匹配分词(Backward Maximum Matching method, BMM法),分词过程与FMM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字“市场/中/国有/企业/才能/发展/ 实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1245,66,双向匹配法(Bi-direction Matching method, BM法),比较FMM法与BMM法的切分结果,从而决定正确的切分可以识别出分词中的交叉歧义,67,统计法(Statistical Method),依据两个或多个汉字
24、同时出现(相邻出现)的概率,利用语料库进行能够有监督或无监督的学习,得到描述一种语言的“语言模型”,然后通过该模型对文本进行词语切分。,68,统计法(Statistical Method),优点:降低了生词(包括译名)的影响,只要有足够的训练文本就易于创建和使用。缺点:“足够训练”非常难以做到,不可能有足够的语料库进行训练,实用性低。,69,一种基于N-gram信息的生词获取,基本思想:N元对词频过滤互信息过滤校正生词获取词频互信息(Mutual Information)词频与互信息的关系候选生词的校正,70,一些抽取出的新词(三元组),71,一些抽取出的新词(二元组),72,人名识别,规则方
25、法:利用语言规则来进行人名识别。优点:识别较准确;缺点:很难列举所有规则,规则之间往往会顾此失彼,产生冲突,系统庞大、复杂,耗费资源多但效率却不高统计方法:一种是仅从字、词本身来考虑,通过计算字、词作人名用的概率来实现,另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。 混合方法:取长补短,73,一种基于统计和规则的人名识别方法,中文姓名用字特点(82年人口普查结果)729个姓氏用字姓氏分布很不均匀,但相对集中 有些姓氏可用作单字词 名字用字分布较
26、姓氏要平缓、分散 名字用字涉及范围广 某些汉字既可用作姓氏,又可用作名字用字,74,人名识别系统资源,语料库:95、96两年的人民日报语料全集。共约4000万字。 人名库:包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。人名库和语料库的一致性对保证统计数据的准确性至关重要。,75,人名识别系统知识库,姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字,76,人名识别系统知识库,名字常用词表,77,人名识别系统知识库,称谓库三种类型 只能用于姓名之前,如:战士、歌星、演员等; 只能用于姓名之后,如:阁下、之流等; 姓名前后皆可,如:先生、主席
27、、市长等。 称谓前缀表:“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等,78,人名识别系统知识库,简单上下文指界词表:约110个词动词:说、是、指出、认为、表示、参加等; 介词:在、之、的、被、以等; 正在、今天、本人、先后等。 标点符号集人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 顿号一边是人名时,另一边的候选人名的可靠性高。,79,人名识别系统知识库,非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。例:“做这件事花了我
28、们一段时间。”,80,中文人名识别过程,81,人名识别的具体实现,姓氏判别名字识别概率判断候选字符串为人名的概率为: P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时,为P2),82,校正(对潜在人名的后处理),当两个已辨识的人名相似时,需要检查是否要更正 C1C2C3与C1C2C4同时存在,C1C2正确;C1C2C3与C1C2C4同时存在,C1C2C3正确;C1C2C3与C1C2同时存在,C1C2正确;C1C2C3与C1C2同时存在,C1C2C3正确,83,校正(对潜在人名的后处理),自动校正:如果两个潜在人名相似,考察它们的权值。一高一低时,将低权值的
29、潜在人名清除(李文常、李文);都为高权值时,两者都认为是人名(刘文军、刘文俊);都是低权值时,则各自通过第三个字作名字用字的概率大小来判断。概率够高,识别为人名。否则将第三个字去掉(李文常、李文及) 。人工校正,84,人名识别结果与分析,实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。 召回率=文本中的中文人名辨识正确的比例=267/270*100% =98.89% 准确率=真正辨识正确的人名的比例 =267/330*100% =80.91% 准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。,85,人名识别结果与分析,产生错误的主要原因被未识别的地名干扰。“湖北英山县詹家河乡陶家河村, ”受非中式人名的干扰。“司马义艾买提 ”分词结果不理想。“为迎接香港回归送贺礼” 规则不准确。“南宋大诗人杨万里“惊如汉殿三千女, ”其他。“全世界每年影片产量高达两三千部, ”,86,改进措施,采用更好的分词系统 构建更准确的姓名用字库、指界词库等 识别时结合一些语法、语义知识 采用更合理的大规模人名语料进行训练,使阈值确定得更合理 增加一些校正措施,