1、第一届全国信息检索与内容安全学术会议1构建汉语问答系统评测平台吴友政,赵军,段湘煜,徐波(中国科学院自动化研究所 模式识别国家重点实验室,北京 100080)摘 要: TREC、NICIR 和 CLEF 等评测的成功已经证明:系统化、大规模的定量评测对问答系统的研发有巨大的推动作用。然而,缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍。本研究小组在吸收英文、日文等问答系统评测的成功经验基础上,推出面向汉语的问答系统评测平台(Evaluation Platform for Chinese Question Answering,简称 EPCQA) ,并规划了汉语问答系统评测的几个阶
2、段。除此之外,本文还对 EPCQA 语料库(1.8GB 互联网网页) 、测试集(从多种不同的途径收集了 4250 个基于的事实用户提问) 、打分标准(MRR、准确率、召回率和 F 值)等构建过程进行了详细的介绍。关键词: 汉语问答系统;评测Building an Evaluation Platform for Chinese Question Answering SystemsYouzheng Wu Jun Zhao Xiangyu Duan Bo Xu(National Laboratory of Pattern Recognition, Institute of Automation, C
3、AS, Beijing 100080)Abstract: The success of TREC, NICIR, CLEF and etc has proved that systematical and large scale evaluation will accelerate the research on Question Answering (QA). Unfortunately, no evaluation mechanism has become the main handicap to the research and development of Chinese QA sys
4、tems. Based on the experiences from previous evaluation systems, we built an evaluation platform and presented the roadmap for Chinese Question Answering. The paper introduces in detail the process of building the evaluation platform, which is composed of the corpus as the primary source of answers(
5、1.8GB from Web), the test question set (4250 test questions via multi-approaches), and the evaluations in terms of MRR, precision, recall and f-measure.key words: Chinese Question Answering; Evaluation基金资助:本课题得到国家自然科学基金(60372016)和教育部归国留学人员科研基金资助。作者简介:吴友政,安徽,博士生,email:;赵军,山西,副研究员,博士,email:;段湘煜,河南,博士生
6、,email: ;徐波,浙江,研究员,博士, email: 第一届全国信息检索与内容安全学术会议21 引言所谓问答系统,是指系统接受用户以自然语言形式描述的提问(例如:世界上最大的宫殿是什么宫殿?) ,并从大量的异构数据中查找出能回答该提问的准确、简洁的答案(例如:“紫禁城”或者“故宫” )的信息检索系统。因此,问答系统与根据关键词检索并返回相关文档集合的传统搜索引擎有着根本的区别。它能够向用户提供真正有用、精确的信息,将是下一代搜索引擎的理想选择之一。经过这几年的发展,自然语言问答系统已经成为自然语言处理领域和信息检索领域的重要分支和新兴研究热点。在问答系统的研发进程中,系统评估对于系统的研
7、发和应用有显著的影响。几年来, “通过系统化、大规模的定量评测推动研发向前发展”的研究方法和技术路线受到越来越多的研发人员的重视,例如国际上著名的 TREC (Text Retrieval Conference),MUC(Message Understanding Conference),DUC(Document Understanding Conference),国内的 863、973 评测等等。这种以评测推动研究发展的思路意在:1)以系统化、大规模测试为基础,推动研究的向前发展;2)经由开放式的论坛,使与会者能交流研究的成果与心得,增进学术界和产业界的交流互通;3)经由对真实环境的模拟与重
8、要改进,加速将实验室研究成果转化为产品;4)发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适用于现有系统的新的评估技术。由美国 NIST(National Institute of Standards and Technology)资助的 TREC1从 1999 年开始就设立 QA Track 测试专项,提供英文 QA 语料和测试集。日本 NICIR2(NII-NACSIS Test Collection for IR Systems)于 2002 年开始设立 QA Track 评测,并提供日文 QA 测试集。而欧洲 CLEF3(Cross Language Evaluation F
9、orum)也于 2003 成立了第一届多语言 QA Track。和它们相比,缺乏大规模的汉语问答系统测试集是制约汉语问答技术发展的主要障碍。本研究小组在 TREC, NTCIR 和 CLEF 成功经验的基础上,推出汉语问答系统评测平台 EPCQA(Evaluation Platform for Chinese Question Answering),希望能与国内外问答检索领域的团队合作,在各个研究小组的共同参与下,互相验证彼此的研究成果,完善以汉语为主的 QA测试集,合成权威的相关结果集,一起推动汉语问答检索技术、汉语自然语言处理技术的发展以及汉语自然语言处理技术和汉语问答检索技术研究与应用的
10、紧密结合。2 汉语问答系统的发展阶段为了能够使问答系统成为真正的“专业信息分析师” ,2000 年,美国国防部高级研究规划局TIDES(The Translingual Information Detection, Extraction and Summarization)项目确立了问答系统研究的路线图11。但此路线图在如何逐步增加用户提问的难度与复杂度,以及答案源数据的多样性等方面都很模糊,可操作性不强3。所以,我们在定义问答系统评测的阶段性任务时,遵循黑箱子原则和可操作性原则,从用户提问的答案角度将之划分为四个阶段,如图 2.1 所示。所谓黑箱子原则,是指评测系统只从答案的角度考察问答系统
11、,而不考虑系统使用的技术以及系统给出答案的依据文档。例如:用户提问:世界上平均海拔最高的洲是哪个洲?文档 258991:亚洲地形的总特点是地势高、地表起伏大,中间高、周围低,平均海拔约 950米,是除南极洲外世界上地势最高的一洲文档 258191:世界海拔最高的洲南极洲,平均高度海拔 2 350m1 http:/trec.nist.gov/2 http:/research.nii.ac.jp/ntcir/3 http:/r.it/第一届全国信息检索与内容安全学术会议3很显然,从文档 258991 中给出答案的难度要大于从文档 258191 中抽出答案的难度,但我们的评测平台平等对待文档 258
12、991 和文档 258191 中的答案,没有区别打分。问答系统发展的四个阶段(从答案角度考察的)阶段 1:命名实体阶段阶段 2:组块阶段阶段 3:句群阶段阶段 4:摘要阶段图 2.1 汉语问答系统发展阶段Fig.1 Development Stage of Chinese Question Answering在命名实体阶段,评测系统的主要任务评测问答系统处理答案类型是命名实体(人名、地名、机构名、时间、数量等等)的用户提问的能力,而且测试集中的每个问题都可以从语料库中查找到答案。例如用户提问:二战期间的美国总统是谁(罗斯福)?国际奥委会成立于哪一年?(1894 年)等等。在组块阶段,问答系统必
13、须处理答案类型是组块(包括命名实体,词,短语等)的用户提问,其候选答案选择模块可能还需要一个知识本体作支撑。例如:用户提问:美国邮递员的制服是什么颜色的?文档 107110:美国大城市的邮差多是步行,在投递上分片包干。他们穿蓝灰色的制服,推着个小型轻便推车,走到各家门前就停下来放上一把已经分检好的邮件对于上述问题,如果问答系统在知识本体的支撑下,知道蓝灰色是一种颜色,那么,系统极有可能从文档 107110 中找出提问的正确答案:蓝灰色。此外,第二阶段的提问类型还包括列表型提问和定义型提问等。例如用户提问:请问初唐四杰是哪四位?(王勃、杨炯、卢照邻、骆宾王) ,什么是 H 股?(注册地在内地、上
14、市地在香港的外资股)等等。在句群阶段,问答系统处理的用户提问范围更广,不仅包括前两个阶段全部的用户提问类型,还包括那些需要概括、总结才能够回答的问题。这一阶段的问答技术不一定会难于第一、二阶段,但它主要目的是评测问答技术的实用化程度,把问答系统推向实用。例如用户提问:人在死海游泳不会沉到水底,是什么原因?如何办理出国手续?天空为什么是蓝色的?等等。在摘要阶段,评测系统将评测问答系统是否已成为真正的“专业信息分析师” 。此阶段的问答系统应该能够满足用户基本上所有的要求,能够处理任何用户提出,并从大量的异构语料(结构化,半结构化,自由文本,多种语言,多个媒介)中提取、判断、概括、总结出答案。例如:
15、美国在伊拉克战场上的战况如何?2004 我国的财政状况如何?等等。摘要阶段和句群阶段的最大区别是:句群阶段的提问答案只是机械地从文档中抽取出句子,返回给用户,而摘要阶段用户提问的答案可能还需要在理解之后进行生成。本文主要针对评测的命名实体阶段和组块阶段建立面向汉语的问答评测平台。第一、二阶段的区别主要在于用户提问的答案类型不同,其他方面基本上没有差别。所以,剩下章节的介绍不再分第一阶段还是第二阶段,而是将重点介绍汉语问答评测平台(EPCQA )的三个重要环节,构建语料库、测试集和打分标准,并对下一步工作进行展望。第一届全国信息检索与内容安全学术会议43 构建语料库虽然基于 Web 的问答系统更
16、能满足用户的需求,并且不需要收集大规模的语料库,但 Web 是一个动态变化的海量“语料库” ,语料每天都在发生变化,这一点不利于我们对不同算法以及同一算法在不同阶段的评测。因此,我们主要对基于固定语料库的问答系统进行评测。但为了能够在更大程度上模拟系统实际使用的情况,我们收集的语料均来自互联网网页。目前,EPCQA 语料库的规模达 1.8GB,主要分布于国内、国际、娱乐、体育、社会和财经等领域。为了评测需要,我们还对 EPCQA 语料库进行一定程度的深加工。表 3.1 给出了 EPCQA 语料标注的标记集。表 3.1 EPCQA 语料标注的标记集Table 3.1 Tag Sets of EP
17、CQA Corpus标记形式 说明 文章开始和结束 文章编号 文章来源 文章出版者 文章主题 文章标题 文章内容 段落标记下面是 EPCQA 对一篇文档的标注实例。INTERNET.0001 INTERNET ChineseLDC 1987 诺贝尔文学奖约瑟夫布罗茨基(Joseph Brodsky, 19401996)苏裔美籍诗人。生于列宁格勒一个犹太家庭,父亲是摄影师,布罗茨基自小酷爱自由,因不满学校的刻板教育,15 岁便退学进入社会。他先后当过火车司炉工、板金工、医院陈尸房工人、地质勘探队的杂务工等。业余时间坚持写诗,译诗。1987 年,由于他的作品“超越时空限制,无论在文学上及敏感问题方
18、面,都充分显示出他广阔的思想和浓郁的诗意”,获得诺贝尔文学奖。第一届全国信息检索与内容安全学术会议54 建立测试集EPCQA 已从多个不同的渠道(例如,自然语言搜索网站日志、百科知识问答题库、实验室工作人员,对英语提问的翻译等)收集了 4250 个基于事实的测试问题,以及这些提问在 EPCQA 语料库中的答案。4.1 EPCQA 建立原则和步骤EPCQA 测试集的建立遵循全面性、真实性和无歧义性三个原则。其中,全面性指测试集中的提问要尽量涵盖多个主题,避免千篇一律地全是提问人物或者地点等。真实性指测试集中的提问应尽量反映用户使用疑问句的习惯,避免千篇一律的疑问句法。TREC-8 在测试集的真实
19、性方面做得不够,因为测试集中的一部分提问是通过逆构法 4产生的。这样的问句通常会包括较多的提示信息,比较容易回答Ellen M. Voorhees, 1999。从 TREC-9 开始,测试集都是从自然语言检索系统的搜索日志(例如MSNSearch 和 AskJeeves 的搜索日志)中提取出来的。无歧义性指测试集中的每个提问都不能有歧义。按照上述三个原则,我们分三步完成了汉语问答系统测试集的建立:第一步、自动过滤过滤原则是问句中应该包括一个疑问词(谁,哪,什么时候等) ;或者以情态词或动词开始;或者以问号结束。第二步、人工过滤过滤掉的问题包括非事实问题,程序问题,某物在网络中位置问题,模糊性的
20、问题等。第三步、人工修正对测试集进行的人工修正的工作主要包括拼写检查,标点符号检查和语法规则的检查等。EPCQA 从自然语言搜索网站的日志中共提取 5400 多个提问。但是,其中很多提问还不是现阶段问答系统研究的重点,例如:非基于事实的提问、省略了疑问词的提问、表达模糊的提问、要求回答的是完成某件事的程序而非简短答案的提问,等等。我们对这些提问进行人工剔除。例如提问:如何网上赚钱? 女朋友过生日送什么礼物?如何申请免费空间?成龙的近况如何?等等。还有一些符合要求但表达不当的提问,我们对它们进行了一定的修改。百科知识问答题库中的提问相对比较书面化,不能够反映用户使用问句的方式。对此我们进行了一些
21、口语化的处理。例如提问:香港电影花样年华最近在第届戛纳国际电影节上获最佳男主角奖,在该片中饰演男主角的哪一位演员?中国第一次派运动员参加的奥运会和中国夺得第一枚金牌的奥运会是在同一城市举行,它是什么城市?我们分别把它们修改成:谁在香港电影花样年华中饰演男主角?中国夺得第一枚金牌的奥运会是在哪个城市举办的?我们认为这样更能反映系统在使用中的实际情况。实验室工作人员可以提出任何他们感兴趣的问题,我们只是要求对提问的表达要尽可能的多样化,不要总是用是同一种提问方式。对英语提问句的翻译是我们获取汉语问答系统测试集的另一个非常重要的途径。其中,英语提问句的来源主要是往届的 TREC 比赛的测试集。我们这
22、里的“翻译”不全是对英语提问句的直接翻译,而是4问题设计者先找一个自己感兴趣的 topic,然后根据检索到的文本把陈述句改为疑问句。第一届全国信息检索与内容安全学术会议6对于部分可能在中文中找不出答案的提问在不改变提问类型的情况下,进行了适当的修改,例如:英语提问:Who wrote “East is east, west is west and never the twain shall meet“?中文提问:名著红楼梦是谁的作品?英语提问:What is the name of CEO of Apricot Computer? 中文提问:联想公司的 CEO 叫什么名字?目前,我们通过上述四
23、个途径已建立了一个有 4250 个提问的汉语问答系统测试集。很显然,这个测试规模还很小。我们希望能够在以后的工作中逐步扩大、完善测试集。4.2 测试集类型EPCQA 的 4250 个测试集问题可以分为三大类,即事实问题、列表问题和描述问题。事实问题是指用户的提问基本上是客观事实,不是个人的主观想法或者意见,其答案通常都是一个组块(包括词和短语) 。列表问题实际上是事实问题的一个子类,不同的是系统返回的答案是不少于提问指定数目的实例。描述问题则是要求系统给出对一个人、一件事物或组织的简短描述。关于它们的例子可以参看表 4.1。表 4.1 汉语问答系统测试集的部分实例Table 4.1 Some
24、Test Examples of Chinese Question Answering提问类型 例子 答案氧气占空气体积的百分之多少? 20.95%/21%/五分之一目前国际奥委会总部在哪里? 瑞士洛桑非洲第一高峰乞力马扎罗山的海拔高度是多少? 米谁获得 1987 年的诺贝尔文学奖? 约瑟夫布罗茨基被称为我国“瓷都” 的是指哪一城市? 景德镇中国最大的商业银行是什么银行? 中国工商银行布什是谁? 美国总统林肯是怎么死的? 暗杀UPS 全称是什么? 不间断电源系统/Uninterruptible Power System事实问题世界自然基金组织的标志是什么? 熊猫请问初唐四杰是哪四位? 王勃、杨
25、炯、卢照邻、骆宾王列表问题 列举出联合国安理会常任理事国? 中国 美国 俄罗斯 英国 法国UFO 的是什么? Unidentified Flying Objects/不明飞行物定义问题什么是 H 股? 注册地在内地、上市地在香港的 外资股4.3 测试集答案在确定了测试集的提问之后,接下来要做的就是从语料库中找出这些提问的简洁答案 5。如果某个5 简洁答案是指问答系统给出的答案不能包括除答案之外的字符串。例如提问:哈利波特一书的作者是谁?答案 a)、b) 、c) 都不能作为正确答案,只有 d)正确。a)37 岁的罗琳;b)哈利- 波特作者罗琳成英国第一女富第一届全国信息检索与内容安全学术会议7提
26、问在语料库中没有答案,问答系统应返回 NIL。否则,问答系统返回的答案应该是如下形式的三元组:问题编号 答案 支持答案的文档编号对于某些问题,语料库中的不同文档给出的答案可能不相同,有的甚至是错误的答案。但只要文档能够支持这个答案,评测时就将之作为正确答案对待。例如:用户提问 1:18K 金含金量是多少?文档 5891: 24K 为足金,含量为 99.9%,18K 含金量为 75%.文档 5892:每 K 金含金量为 4.15%,含金量为 99.6%以上的为 24K,含金量 91.3%为 22K,含金量 74.4%为 18K,其余以此类推此时文档 5891 支持的答案(75%)和 5892 中
27、的答案(74.4%)都被作为正确答案对待。5 建立打分标准汉语问答系统的评分标准采用国际上通用的 MRR(Mean Reciprocal Rank) 、准确率(P ) 、召回率(R)和 F-Measure(F ) 。只是针对不同的问题类型,答案的具体要求和打分标准也有所差异。5.1 事实问题初步拟定,事实提问采用 MRR 打分标准。即,每个事实问题,问答系统可以给出按照概率大小排列的五组 问题编号 答案 支持答案的文档编号对。如果第一个答案是对的,那么这个问题就得 1 分,如果第二个答案是对的,那么这个问题得 1/2 分,如果第三个答案是对的,那么这个问题得 1/3 分,依此类推。如果所有给出
28、的答案都是错误的,那么就得 0 分。把每个问题所得的分加起来再除以问题的总数就可以得到整个事实问题测试集的 MRR。MRR 越高,说明该系统的准确率越高。具体参见公式5.1。(5.1)NiMR1 排 序 结 果 中 的 位 置标 准 答 案 在 系 统 给 出 的说明:如果标准答案存在于系统给出的排序结果中的多个位置,以排序最高的位置计算;如果标准答案不在系统给出的排序结果中,本题得 0 分。5.2 列表问题对于列表问题,问答系统给出的答案是一个是非空、无序、无重复、不超过指定大小的列表。EPCQA 可以保证语料库中至少包含提问中指定数量的实例,但不能保证每个列表问题的所有指定大小的实例都能在
29、语料库中的某一篇文章中找到,有时实例可能分散在多个文章中。在这种情况下,EPCQA要求问答系统能够从这多篇文章中概括出列表问题的实例。例如用户提问 2:东北三宝是哪三宝?文档 5893:闻名于世的东北三宝之一的貂皮,可称得上是裘皮之冠,文档 5894:人参是“东北三宝”第一宝。山参的生长在深山老林之中鹿茸是“东北三宝”之一,是雄鹿额骨上生长的尚未骨化的幼角问答系统需要从文档 5893 和 5894 中概括出如下的答案列表:用户提问 2 文档 5893 貂皮用户提问 2 文档 5894 人参豪;c)哈利 波特小说的作者罗琳;d) 罗琳。第一届全国信息检索与内容安全学术会议8用户提问 2 文档 5
30、894 鹿茸每一个列表问题的答案评分采用事例召回率(IR) 、事例准确率(IP)和 F-Measure(IF) ,具体计算方法参见公式(5.2)(5.4) 。 例 数列 表 问 题 要 求 给 出 的 实 数正 确 的 、 无 重 复 的 实 例IR(5.2)系 统 返 回 的 实 例 数 数正 确 的 、 无 重 复 的 实 例P(5.3)(5.4)IPRIF2所有列表问题的 IR、IP、IF 值是各个列表问题 IR、IP、IF 值的算术平均值。5.3 定义问题对每一个描述问题,评测员会列出一个基本信息和可接受信息的表单。基本信息是指这一问题的答案中不可缺少的描述部分。可接受信息是指可以构成
31、一个正确的答案的,但还不是必需的信息。超出基本信息和可接受信息的部分将在评分体系中给予扣分。EPCQA 用片断召回率(NR) 、片断准确率(NP )和 F-Measure 来评测一个描述提问的得分。具体参见公式(5.5)(5.7)。(5.5)全 部 基 本 信 息 个 数数系 统 返 回 的 基 本 信 息 个NR用允许长度(Allowance)和实际长度(Length)来定义 NP 如下:elsAowancLgthifLengthAlowacP1(5.6)Allowance 100 (返回的基本信息个数 + 返回的可接受信息个数)Length 返回答案的全部长度F-Measure 是 NR
32、和 NP 的平均,公式如下:(5.7)NRPMeasurF21同样,所有描述问题的 NR,NP 和 F-Measure 是单个描述问题 NR,NP 和 F-Measure 的算术平均值。6 结论与展望我们构建汉语问答系统评测平台的出发点是想通过对真实环境的模拟,以系统化、大规模的评测为基础,推动问答技术研究向前发展,加速将实验室研究技术转化为产品,并发展适当且具应用性的评估技术。很显然,目前的 EPCQA 还不成熟,无论是语料库的规模、测试集的规模、测试集的合理性与否,还是打分标准都有待在实践中逐步的改进和完善。我们计划的下一步工作重点主要包括以下几个方面: 扩大现有测试类型提问的测试规模第一
33、届全国信息检索与内容安全学术会议9 构建更为合理的测试集测试集的合理性主要体现在几个方面:(1)测试集是否真正的开放域,即覆盖的范围是不是尽量的宽广;(2)测试集的提问方式能否反应用户实际使用时的情况;(3)测试指标能否有效、合理的比较各个问答系统的性能。 构建更为合理的打分标准目前的评分标准只是从问答系统返回的答案的角度进行打分,此外,如果还考虑问答系统返回答案的文档,打分会更合理。而对于其他类型的问题,如程序型提问、解释型提问、摘要型提问、比较型提问等等,应该有一个更客观的打分标准。 逐步扩大用户提问的广度和深度我们希望能与国内外问答检索领域的团队合作,在各个研究小组的共同参与下,互相验证
34、彼此的研究成果,完善以汉语为主的 QA 测试集,合成权威的相关结果集,一起推动汉语问答检索技术研究与应用。参考文献:1 Ellen M. Voorhees, Dawn M. Tice. The TREC-8 Question Answering Track EvaluationA. The Eighth Text REtrieval Conference (TREC-8), Spec Pub 500-246, Washington DC: NIST, 1999, 77-82.2 Ellen M. Voorhees. Overview of the TREC 2003 question answ
35、ering trackA. In Proceedings of the Twelfth Text REtrieval Conference (TREC 2003), 2003.3 Ellen M. Voorhees. Overview of the TREC-9 Question Answering TrackA. The Ninth Text REtrieval Conference (TREC-9), Spec Pub 500-249, Washington DC: NIST, 2000, 77-82.4 Ellen M. Voorhees. Overview of the TREC200
36、1 Question Answering TrackA. The Tenth Text REtrieval Conference (TREC-01), Spec Pub 500-250, Washington DC: NIST, 2001, 42-51.5 Ellen M. Voorhees. Overview of the TREC2002 Question Answering TrackA. The Eleventh Text REtrieval Conference (TREC-02), Spec Pub 500-251,Washington DC: NIST, 2002.6 John
37、Burger et al. 2001. Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) A. http:/www.ai.mit.edu/people/jimmylin/papers/Burger00-Roadmap.pdf7 Junichi Fukumoto, Tsuneaki Kato and Fumito Masui. Question Answering Challenge (QAC1): An Evaluation of QA Tasks at the NTCI
38、R Workshop 3A. In Proc. of AAAI Spring Symposium: New Directions in Question Answering, pp.122-133, 2003. 8 Xiaoyan Li, W. Bruce Croft, Evaluating Question-Answering Techniques in ChineseA. Computer Science Department University of Massachusetts, Amherst, MA , 2001. 9 B. Magnini, S. Romagnoli, A. Va
39、llin, J. Herrera, A. Peas, V. Peinado, F. Verdejo, M. de Rijke. Creating the DISEQuA Corpus: a Test Set for Multilingual Question AnsweringA. Working Notes for the CLEF 2003 Workshop, 21-22 August, Trondheim, Norway, 2003.10 B. Magnini, S. Romagnoli, A. Vallin, J. Herrera, A. Peas, V. Peinado, F. Ve
40、rdejo, M. de Rijke. The Multiple Language Question Answering Track at CLEF 2003A. Working Notes for the CLEF 2003 Workshop, 21-22 August, Trondheim, Norway, 2003.11 John Burger, Claire Cardie, Vinay Chaudhri, et al. Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A). October 2000. http:/www-nlpir.nist.gov/projects/duc/papers/ qa.Roadmap -paper_v2.doc