2007年TREC的问答轨道概述【外文翻译】.doc

上传人:文初 文档编号:45151 上传时间:2018-05-14 格式:DOC 页数:9 大小:45.50KB
下载 相关 举报
2007年TREC的问答轨道概述【外文翻译】.doc_第1页
第1页 / 共9页
2007年TREC的问答轨道概述【外文翻译】.doc_第2页
第2页 / 共9页
2007年TREC的问答轨道概述【外文翻译】.doc_第3页
第3页 / 共9页
2007年TREC的问答轨道概述【外文翻译】.doc_第4页
第4页 / 共9页
2007年TREC的问答轨道概述【外文翻译】.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、毕业论文(设计)外文翻译外文原文OVERVIEWOFTHETREC2007QUESTIONANSWERINGTRACKABSTRACTTHETREC2007QUESTIONANSWERINGQATRACKCONTAINEDTWOTASKSTHEMAINTASKCONSISTINGOFSERIESOFFACTOID,LIST,AND“OTHER”QUESTIONSORGANIZEDAROUNDASETOFTARGETS,ANDTHECOMPLEX,INTERACTIVEQUESTIONANSWERINGCIQATASKTHEMAINTASKDIFFEREDFROMPREVIOUSYEARSINT

2、HATTHEDOCUMENTCOLLECTIONCOMPRISEDBLOGSINADDITIONTONEWSWIREDOCUMENTS,REQUIRINGSYSTEMSTOPROCESSDIVERSEGENRESOFUNSTRUCTUREDTEXTTHEEVALUATIONOFFACTOIDANDLISTRESPONSESDISTINGUISHEDBETWEENANSWERSTHATWEREGLOBALLYCORRECTWITHRESPECTTOTHEDOCUMENTCOLLECTION,ANDTHOSETHATWEREONLYLOCALLYCORRECTWITHRESPECTTOTHESUP

3、PORTINGDOCUMENTBUTNOTTOTHEOVERALLDOCUMENTCOLLECTIONTHECIQATASKPROVIDEDAFRAMEWORKFORPARTICIPANTSTOINVESTIGATEINTERACTIONINTHECONTEXTOFCOMPLEXINFORMATIONNEEDSSTANDINGINFORSURROGATEUSERS,ASSESSORSINTERACTEDWITHQASYSTEMSLIVEOVERTHEWEBTHISSETUPALLOWEDPARTICIPANTSTOEXPERIMENTWITHMORECOMPLEXINTERFACESBUTAL

4、SOREVEALEDLIMITATIONSINTHECIQADESIGNFOREVALUATIONOFINTERACTIVESYSTEMS1INTRODUCTIONTHEGOALOFTHETRECQUESTIONANSWERINGQATRACKISTOFOSTERRESEARCHONSYSTEMSTHATDIRECTLYRETURNANSWERS,RATHERTHANDOCUMENTSCONTAININGANSWERS,INRESPONSETOANATURALLANGUAGEQUESTIONSINCEITSINCEPTIONINTREC81999,THETRACKHASSTEADILYEXPA

5、NDEDBOTHTHETYPEANDDIFFICULTYOFTHEQUESTIONSASKEDTHEFIRSTSEVERALEDITIONSOFTHETRACKFOCUSEDONFACTOIDQUESTIONSAFACTOIDQUESTIONISAFACTBASED,SHORTANSWERQUESTIONSUCHASHOWMANYCALORIESARETHEREINABIGMACTHETASKINTHETREC2003QATRACKCONTAINEDLISTANDDEFINITIONQUESTIONSINADDITIONTOFACTOIDQUESTIONSVOORHEES,2004ALISTQ

6、UESTIONASKSFORDIFFERENTANSWERINSTANCESTHATSATISFYTHEINFORMATIONNEED,SUCHASLISTTHENAMESOFCHEWINGGUMSANSWERINGSUCHQUESTIONSREQUIRESASYSTEMTOASSEMBLEARESPONSEFROMINFORMATIONLOCATEDINMULTIPLEDOCUMENTSADEFINITIONQUESTIONASKSFORINTERESTINGINFORMATIONABOUTAPARTICULARPERSONORTHINGSUCHASWHOISVLADTHEIMPALEROR

7、WHATISAGOLDENPARACHUTEDEFINITIONQUESTIONSALSOREQUIRESYSTEMSTOLOCATEINFORMATIONINMULTIPLEDOCUMENTS,BUTINTHISCASETHEINFORMATIONOFINTERESTISMUCHLESSCRISPLYDELINEATEDSINCETREC2004VOORHEES,2005A,FACTOIDANDLISTQUESTIONSHAVEBEENGROUPEDINTODIFFERENTSERIES,WHEREEACHSERIESISASSOCIATEDWITHATARGETANDTHEQUESTION

8、SINTHESERIESASKFORSOMEINFORMATIONABOUTTHETARGETINADDITION,THEFINALQUESTIONINEACHSERIESISANEXPLICIT“OTHER”QUESTION,WHICHISTOBEINTERPRETEDAS“TELLMEOTHERINTERESTINGTHINGSABOUTTHISTARGETIDONTKNOWENOUGHTOASKDIRECTLY”THISLASTQUESTIONISROUGHLYEQUIVALENTTOTHEDEFINITIONQUESTIONSINTHETREC2003TASKTHESERIESFORM

9、ATSUPPORTSTHEEVALUATIONOFDIFFERENTTYPESOFQUESTIONSFACTOID,LISTANDOTHERWHILEPROVIDINGANABSTRACTIONOFAREALUSERSESSIONWITHAQASYSTEMINTREC2004,THETARGETFORASERIESCOULDBEAPERSON,ORGANIZATION,ORTHINGEVENTSWEREADDEDASPOSSIBLETARGETSINTREC2005,REQUIRINGTHATANSWERSMUSTBETEMPORALLYCORRECTWITHRESPECTTOTHETIMEF

10、RAMEDEFINEDBYTHESERIESINTREC2006,THATREQUIREMENTFORSENSITIVITYTOTEMPORALDEPENDENCIESWASMADEEXPLICITINTHEDISTINCTIONBETWEENLOCALLYANDGLOBALLYCORRECTANSWERS,SOTHATANSWERSFORQUESTIONSPHRASEDINTHEPRESENTTENSEMUSTNOTONLYBESUPPORTEDBYTHESUPPORTINGDOCUMENTLOCALLYCORRECT,BUTMUSTALSOBETHEMOSTUPTODATEANSWERIN

11、THEDOCUMENTCOLLECTIONGLOBALLYCORRECTTHEMAINTASKINTHETREC2007QATRACKREPEATEDTHEQUESTIONSERIESFORMAT,BUTWITHASIGNIFICANTCHANGEINTHEGENREOFTHEDOCUMENTCOLLECTIONINSTEADOFJUSTNEWSWIRE,THEDOCUMENTCOLLECTIONCONTAINEDBOTHNEWSWIREANDBLOGSMININGBLOGSFORANSWERSINTRODUCEDSIGNIFICANTNEWCHALLENGESINATLEASTTWOASPE

12、CTSTHATAREVERYIMPORTANTFORREALWORLDQASYSTEMS1BEINGABLETOHANDLELANGUAGETHATISNOTWELLFORMED,AND2DEALINGWITHDISCOURSESTRUCTURESTHATAREMOREINFORMALANDLESSRELIABLETHANNEWSWIREBASEDONITSSUCCESSFULAPPLICATIONINTREC2006DANGANDLIN,2007,THENUGGETPYRAMIDEVALUATIONMETHODBECAMETHEOFFICIALEVALUATIONMETHODFORTHEOT

13、HERQUESTIONSINTREC2007INADDITIONTOTHEMAINTASK,THETREC2007QATRACKREPEATEDTHECOMPLEX,INTERACTIVEQACIQATASKOFTREC2006ATTHETREC2006WORKSHOP,PARTICIPANTSINDICATEDTHATTHEYWANTEDTOHAVELONGER,MORECOMPLEXINTERACTIONSINTHECIQATASKRATHERTHANSHORTINTERACTIONSVIACACHEDINTERACTIONFORMSPARTICIPANTSPROPOSEDTRYING“L

14、IVEINTERACTIONS”FOR2007UNDERTHISSETUP,THEINTERACTIVEQASYSTEMWASLOCATEDATAURLUNIFORMRESOURCELOCATORONTHEPARTICIPANTSMACHINE,ANDNISTASSESSORSSIMPLYNAVIGATEDTOTHEURLTHEADVANTAGEWASTHATPARTICIPANTSWEREABLETOEXPLOREMORECOMPLEXINTERACTIONSANDINTERFACESHOWEVER,THISSETUPPLACEDTHEBURDENONPARTICIPANTSTOHAVETH

15、EIRSYSTEMSACCESSIBLEDURINGTHEENTIREINTERACTIONPERIODANDTORECORDALLDESIREDDATADURINGTHEINTERACTIONTHEREMAINDEROFTHISPAPERDESCRIBESEACHOFTHETWOTASKSINTHETREC2007QATRACKINMOREDETAILSECTION2DESCRIBESTHEQUESTIONS,EVALUATIONMETHODS,ANDRESULTSFORTHEMAINTASK,WHILESECTION3DISCUSSESTHECIQATASK2MAINTASKTHESCEN

16、ARIOFORTHEMAINTASKINTHETREC2007QATRACKWASTHATANADULT,NATIVESPEAKEROFENGLISHISLOOKINGFORINFORMATIONABOUTATARGETOFINTERESTTHETARGETCOULDBEAPERSON,ORGANIZATION,THING,OREVENTTHEUSERWASASSUMEDTOBEAN“AVERAGE”READEROFUSNEWSPAPERSSERVINGASSURROGATEUSERS,NISTASSESSORSDEVELOPEDTHEQUESTIONSANDJUDGEDTHESYSTEMRE

17、SPONSESTHEMAINTASKREQUIREDSYSTEMSTOPROVIDEANSWERSTOASERIESOFRELATEDQUESTIONSAQUESTIONSERIES,WHICHFOCUSEDONATARGET,CONSISTEDOFSEVERALFACTOIDQUESTIONS,ONEORTWOLISTQUESTIONS,ANDEXACTLYONEOTHERQUESTIONTHEORDEROFQUESTIONSINTHESERIESANDTHETYPEOFEACHQUESTIONFACTOID,LIST,OROTHERWEREALLEXPLICITLYENCODEDINTHE

18、TESTSETEXAMPLESERIESARESHOWNINFIGURE1THEFINALTESTSETCONTAINED70SERIESTHETARGETSOFTHESESERIESAREGIVENINTABLE1OFTHE70TARGETS,19WEREPERSONS,17WEREANORGANIZATIONASTHETARGET,ANDSERIES269HASANEVENTASTHETARGETORGANIZATIONS,15WEREEVENTS,AND19WERETHINGSTHESERIESCONTAINEDATOTALOF360FACTOIDQUESTIONS,85LISTQUES

19、TIONS,AND70OTHERQUESTIONSEACHSERIESCONTAINED610QUESTIONSCOUNTINGTHEOTHERQUESTION,WITHMOSTSERIESCONTAINING7QUESTIONSANSWERSWERETOBEDRAWNFROMADOCUMENTCOLLECTIONCOMPRISINGTHEBLOG06CORPUSMACDONALDANDOUNIS,2006ANDTHEAQUAINT2CORPUSOFENGLISHNEWSTEXTTHEAQUAINT2COLLECTIONCONTAINSAPPROXIMATELY25GBOFTEXTABOUT9

20、07KDOCUMENTSSPANNINGTHETIMEPERIODOFOCTOBER2004MARCH2006ARTICLESAREINENGLISHANDCOMEFROMAVARIETYOFSOURCESINCLUDINGAGENCEFRANCEPRESSE,CENTRALNEWSAGENCYTAIWAN,XINHUANEWSAGENCY,LOSANGELESTIMESWASHINGTONPOSTNEWSSERVICE,NEWYORKTIMES,ANDTHEASSOCIATEDPRESSBLOG06DOCUMENTSWERECOLLECTEDBYPOLLING100,649RSSANDATO

21、MFEEDSOVERAN11WEEKPERIODDECEMBER6,2005FEBRUARY21,2006ABLOGDOCUMENTISDEFINEDTOBEABLOGPOSTPLUSITSFOLLOWUPCOMMENTSAPERMALINKASACONVENIENCEFORTRACKPARTICIPANTS,NISTMADEAVAILABLEDOCUMENTRANKINGSOFTHETOP1000DOCUMENTSPERTARGETFOREACHOFTWOCORPORA,ASPRODUCEDUSINGTHEPRISEDOCUMENTRETRIEVALSYSTEM,WITHTHETARGETA

22、STHEQUERYPARTICIPANTSWEREALLOWEDTWOWEEKSTODOWNLOADTHETESTDATAANDSUBMITTHEIRRESULTSALLPROCESSINGOFTHEQUESTIONSWASREQUIREDTOBESTRICTLYAUTOMATICSYSTEMSWEREREQUIREDTOPROCESSSERIESINDEPENDENTLYFROMONEANOTHER,ANDTOPROCESSANINDIVIDUALSERIESINQUESTIONORDERTHATIS,SYSTEMSWEREALLOWEDTOUSEQUESTIONSANDANSWERSFRO

23、MEARLIERQUESTIONSINASERIESTOANSWERLATERQUESTIONSINTHESAMESERIES,BUTCOULDNOT“LOOKAHEAD”ANDUSELATERQUESTIONSTOHELPANSWEREARLIERQUESTIONSTHUS,QUESTIONSERIESCANBEVIEWEDASANABSTRACTIONOFANINFORMATIONSEEKINGDIALOGUEBETWEENTHEUSERANDTHESYSTEMCFKATOETAL,2004INTOTAL,51RUNSFROM21PARTICIPANTSWERESUBMITTEDTOTHE

24、MAINTASKTHEEVALUATIONOFASINGLERUNCANBEDECOMPOSEDINTOCOMPONENTEVALUATIONSFOREACHOFTHEQUESTIONTYPESANDAFINALPERSERIESSCOREEACHOFTHETHREEQUESTIONTYPESHASITSOWNRESPONSEFORMATANDEVALUATIONMETHODTHEINDIVIDUALCOMPONENTEVALUATIONSIN2007WEREIDENTICALTOTHOSEUSEDINTHETREC2006QATRACK,EXCEPTTHATTHEOFFICIALSCORES

25、FOROTHERQUESTIONSWERECOMPUTEDUSINGMULTIPLEASSESSORSJUDGMENTSOFTHEIMPORTANCEOFINFORMATIONNUGGETS,ANDASSESSORSWERENOTRESTRICTEDINTHECRITERIATHEYCOULDUSEINDISTINGUISHINGBETWEENLOCALLYCORRECTANDGLOBALLYCORRECTANSWERSFORFACTOIDANDLISTQUESTIONSANAGGREGATESCOREWASCOMPUTEDFOREACHSERIESINARUNUSINGASIMPLEAVER

26、AGEOFTHECOMPONENTSCORESOFQUESTIONSINTHATSERIES,ANDTHEFINALSCOREFORTHERUNWASCOMPUTEDASTHEAVERAGEOFITSPERSERIESSCORES21FACTOIDQUESTIONSTHESYSTEMRESPONSETOAFACTOIDQUESTIONWASEITHEREXACTLYONEDOCID,ANSWERSTRINGPAIRORTHELITERALSTRINGNILSINCETHEREWASNOGUARANTEETHATAFACTOIDQUESTIONHADANANSWERINTHEDOCUMENTCO

27、LLECTION,NILWASRETURNEDBYTHESYSTEMWHENITBELIEVEDTHEREWASNOANSWEROTHERWISE,ANSWERSTRINGWASASTRINGCONTAININGPRECISELYANANSWERTOTHEQUESTION,ANDDOCIDWASTHEIDOFADOCUMENTINTHECOLLECTIONTHATSUPPORTEDANSWERSTRINGASANANSWEREACHRESPONSEWASINDEPENDENTLYJUDGEDBYTWOHUMANASSESSORSWHENTHETWOASSESSORSDISAGREEDINTHE

28、IRJUDGMENTS,ATHIRDADJUDICATORMADETHEFINALDETERMINATIONEACHRESPONSEWASASSIGNEDEXACTLYONEOFTHEFOLLOWINGFIVEJUDGMENTSINCORRECTTHEANSWERSTRINGDOESNOTCONTAINACORRECTANSWERORTHEANSWERISNOTRESPONSIVENOTSUPPORTEDTHEANSWERSTRINGCONTAINSACORRECTANSWERBUTTHEDOCUMENTRETURNEDDOESNOTSUPPORTTHATANSWERNOTEXACTTHEAN

29、SWERSTRINGCONTAINSACORRECTANSWERANDTHEDOCUMENTSUPPORTSTHATANSWER,BUTTHESTRINGCONTAINSMORETHANJUSTTHEANSWERORISMISSINGBITSOFTHEANSWERLOCALLYCORRECTTHEANSWERSTRINGCONSISTSOFEXACTLYACORRECTANSWERTHATISSUPPORTEDBYTHEDOCUMENTRETURNED,BUTTHEDOCUMENTCOLLECTIONCONTAINSACONTRADICTORYANSWERTHATTHEASSESSORBELI

30、EVESISBETTERGLOBALLYCORRECTTHEANSWERSTRINGCONSISTSOFEXACTLYTHECORRECTANSWER,THATANSWERISSUPPORTEDBYTHEDOCUMENTRETURNED,ANDTHEDOCUMENTCOLLECTIONDOESNOTCONTAINACONTRADICTORYANSWERTHATTHEASSESSORBELIEVESISBETTERTOBERESPONSIVE,ANANSWERSTRINGWASREQUIREDTOCONTAINAPPROPRIATEUNITSANDTOREFERTOTHECORRECT“FAMO

31、US”ENTITYEG,THETAJMAHALCASINOISNOTRESPONSIVEIFTHEQUESTIONASKSABOUT“THETAJMAHAL”QUESTIONSALSOHADTOBEINTERPRETEDINTHETIMEFRAMEIMPLIEDBYTHEQUESTIONSERIESFOREXAMPLE,IFTHETARGETWASTHEEVENT“FRANCEWINSWORLDCUPINSOCCER”ANDTHEQUESTIONWASWHOWASTHECOACHOFTHEFRENCHTEAMTHENTHECORRECTANSWERMUSTBE“AIMEJACQUET”,THE

32、NAMEOFTHECOACHOFTHEFRENCHTEAMIN1998WHENFRANCEWONTHEWORLDCUP,ANDNOTJUSTTHENAMEOFANYPASTORCURRENTCOACHOFTHEFRENCHTEAMNILRESPONSESWERECORRECTONLYIFTHEREWASNOKNOWNANSWERTOTHEQUESTIONINTHECOLLECTIONNILWASCORRECTFOR16OFTHE360FACTOIDQUESTIONSINTHETESTSETFOR26QUESTIONS,NOSYSTEMRETURNEDTHECORRECTANSWER,ALTHO

33、UGHTHOSEQUESTIONSDIDHAVEACORRECTANSWERFOUNDBYTHEASSESSORSITMAYBETHECASEESPECIALLYWITHTHEINCLUSIONOFBLOGSTHATDIFFERENTDOCUMENTSSUPPORTCONTRADICTORYANSWERSASBEINGCORRECTANEXACTANSWERSTRINGTHATISSUPPORTEDINITSASSOCIATEDDOCUMENTISASSUMEDTOBEGLOBALLYCORRECTUNLESSTHEREISABETTER,CONTRADICTORYANSWERSUPPORTE

34、DELSEWHEREINTHEDOCUMENTCOLLECTIONTHEASSESSORWASALLOWEDTOUSEANYNUMBEROFCRITERIAINDETERMININGTHATONEANSWERWASBETTERTHANANOTHER,INCLUDINGRECENCYOFTHESUPPORTINGDOCUMENT,THEAMOUNTOFSUPPORTPROVIDEDBYEACHSUPPORTINGDOCUMENT,THENUMBEROFDISTINCTSOURCESTHATSUPPORTTHEANSWERASBEINGCORRECT,ANDTHECREDIBILITYORAUTH

35、ORITATIVENESSOFTHESOURCETHEASSESSORMARKEDASGLOBALLYCORRECTONEORMOREOFTHEMOSTCREDIBLEOFTHEKNOWNLOCALLYCORRECTANSWERS“GLOBAL”CORRECTNESSWASDEFINEDWITHRESPECTTOTHEDOCUMENTCOLLECTION,ANDNOTNECESSARILYWITHRESPECTTOTHEREALWORLD译文2007年TREC的问答轨道概述摘要2007年的QATRACK含有两个任务主要任务构成是一系列的语料,清单,“另外一些”跟据一套目标设立的问题,和复杂交互

36、式问答任务。主要任务与往年不同的是在文本集合知识库方面,包括除新闻电讯文件外的网志,要求系统去处理各种类别的非建构型文本。对语料和清单回答的评估是区别于答案全局性正确(遵从文本集合)和那些只是局域性正确(遵从支持性文本但不是总体的文本集合)。复杂交互式问答提供了一个框架给参与者来研究在复杂信息需求中的内在联系。站在代理用户方面,与问答系统互动的评估人生活在网络上;这中设置允许参与问答的人去体验更加复杂的界面但是同时也揭露了用于评估互交式系统的复杂互交问答设计的限制。1介绍TREC(文本检索会议)QATRACK的目的是对于自然语言搜索的回答,培养在直接回馈问题答案系统上的研究,而不是包含无用文本

37、的答案的系统。自从1999年的TREC8(文本检索会议),TRACK已经稳固扩展了被搜索的问题的类型和难度。起先几个版本的检索主要以在仿真陈述问题为焦点。仿真陈述问题是一个基于现实,拥有简短答案的问题,比如“在BIGMAC麦当劳汉堡里面有多少卡路里”2003年的TREC(文本检索会议)QATRACK的任务包括了问题语料库以外的清单和定义问题。(VOORHEES,2004)。一个清单式问题用于搜索不同答案例子来满足信息需要,比如“把口香糖的名字列出来“。来回答这种类型问题需要一个系统用位于多个文档的中信息来组合一个答案。一个定义式问题是问关于某个人或事的令人关注的信息,比如”谁是VLADTHEI

38、MPALER“或是”什么是金色降落伞“定义问题同时也要求系统定位/找到在多个文本中的信息,但是在这次的情况中信息很少被清楚的描绘。自从2004年的TREC(文本检索会议)(VOORHEES,2005A),清单式和仿真陈述式问题被分组到不同的序列中,每一个序列都伴随着一个目标并且在序列里面问题都是提问有关目标的信息。此外,每条序列的最后一个问题是明确的“其他一些”的问题,这个能被解释成“告诉我其他关于目标令人关注的事情,我不够清楚直接来问。”这个最后的问题大约等于在2003年TREC(文本检索会议)任务中的定义式问题。在为问答系统研讨会提供抽象概述的时候,这种序列格式支持不同类型提问的评估(语料

39、/仿真,清单等等。在2004年的TREC(文本检索会议)上,一条序列的目标可能是人,组织或者东西。事件被归入在2005年TREC的可能性目标,要求答案必须是暂时性正确的相对于指令设定的时间界限。在2006年的TREC上,对暂时行相关敏感的要求被清楚的区别与局部的和全局性的正确答案,所以当时得到的问题答案必须不是仅仅被支持性文本(自由文本)支持着(局部正确),但同时也是最新的在文本集合中的答案(全局性正确)。2007年的TRECQATRACK的主要任务是重复问题序列格式,但是在文本集合(知识库)中有一个重大的改变。代替原来的只有NEWSWIRE/新闻信息,文本集合(知识库)包括了NEWSWIRE

40、和网志两个。挖掘网志作为答案凸现出了真实世界中问答系统至少两方面的重要的新挑战1)能够处理(理解)没有很好组织的语言,和2)应对相比NEWSWIRE更加不正规,更加不可靠的论述内容。基于它在2006年TREC上的成功应用(DANGANDLIN,2007),金字塔评论方法成了官方在2007年TREC用来评估其他“问题”的方法。除了主要任务,2007年的TRECQATRACK重复了2006年复杂的互交式问答任务。在2006年的TREC研讨会上,参与者指出了在互交问答过程中对比通过缓存的短互动形式,他们需要更长,更复杂的互交问答。参与者在2007年提议尝试“实况/现场互交(LIVEINTERACTI

41、ONS”。在这个计划下,互交问答系统被设在参与者的机器的URL上,NIST美国技术研究所评估人简单的引导他们到URL上。这个优势在于参与者能探究更复杂互交合界面。然而,这个计划把责任和担子放在参与者身上来让他们的系统在正个交流阶段中变的有用并且记录交流过程中想要的数据。这篇文章剩下的部分更加详细的阐述了2007年的两个任务。第二部分阐述了对于主要任务的提问,评估方法,和结果,同时第三部分讨论复杂问答系统工作。2主要任务2007年TREC主要任务的方案是以英语为母语的成年人寻找感兴趣目标相关信息。目标可能是一个人,组织,东西或者事件。用户被假设为美国报纸的普通读者。NIST评估人创造问题并且判断

42、系统回答。主要任务要求系统为一系列相关联的问题提供答案。一个以目标为焦点,由几个仿真陈述问题,一到两个清单问题,和一个其他问题组成的问题序列。序列中的问题顺序和每个问题的类型(语料,清单或者其他)都被清楚地编在了测试机组中。在图表1中是序列的例子。最后的测试机组包含70个序列;这些序列的目标都在表格1中给出了。70个目标对象中,19个是人,17个是组织,15个是事件,19个是东西。序列中含有一共360个语料问题,85个清单问题,70个其他问题。每个序列含有6到10个问题(包括其他问题),大多数序列都是7个问题。答案是从一个由BLOG06语料库和AQAINT2语料库的英文新闻组成的文本集合中提取

43、的(MACDONALDANDQUNIS,2006。AQUAINT2集合含有大约25GB内容(大约907K文件)横跨2004年10月到2006年3月这个时间段;文章都是英文,来自多种资源库包括AGENCEFRANCEPRESSE,CENTRALNEWSAGENCY(TAIWAN),XINHUANEWSAGENCY,LOSANGELESTIMESWASHINGTONPOSTNEWSSERVICE,NEWYORKTIMES,和THEASSOCIATEDPRESSBLOG06文档是用100,649个RSS和ATOMFEEDS用超过11个星期的时间收集来的(2005,12月6号到2006年2月21号)。

44、一个网络日志(BLOG文件定义为一个网络日志帖子加上它的后续评论(一个永久链接)。为了更方便追踪的参与者,NIST为两个语料的每个目标的最上面的1000个文档制作了可用的排序,就像把目标当成一文,使用PRISE文件检索系统。参与者被允许有两个星期的时间去下载测试的数据和上交他们的结果。所有问题的处理都被严格的自动执行。系统被要求逐个的独自的运行数列,按照问题顺序去运行独立数列。就是这样,系统被允许去使用来自早些数列中的问题和答案来回答同一数列中后来的问题,但是不能“预测未来”,用后来的问题去回答早些的问题。因此,问题序列可以被看成是一个在用户和系统之间的信息寻找对话的抽象概念;CF(KATOE

45、TAL。,2004)。总的来说,来自21参与者的51个运行项被上交给了主要任务。对于单个运行项的评估能被分解成对于每个问题类型和最后每个序列分数的部分评估。三个问题中的每个问题类型有它自己的回复方式和评估方法。2007年的个体部件评估与那些在2006TRECQATRACJ上的完全一样,但对其他问题的官方分数计算使用多元评估的判断掘金队的信息重要性,评估人没有标准限制于区分仿真和清单式问题的局部正确和全局正确的答案。一个计算总得分在运行使用了简单的组件得分平均每个系列在这一系列的问题,并为运行最后的比分是作为其计算每个系列分的平均水平。21语料库问题系统回应语料库问题的不是1字串就是常量字符串“

46、无或零”。因为没有绝对保证语料问题在文本集合(知识库)内有答案,当系统相信不能找到答案的时候“零或无”就被返回给用户。其他方面,答案字符是对于问题含有精确答案的字符,DOCID是一个文件在集合(库)中的ID用来支持答案字符成为一个答案。每个回答都被两个评估人独立判断过的。当这个两个评估人表示不同意时,第三方裁定人会做出最后的决定。每一个回答都被指定成以下五个裁定中的一个不正确答案字符没有包括一个正确的答案或者是答案是不可回答的。不支持的答案字符串含有一个正确的答案但是返回的文件不支持这个的答案。不准确的答案字符串含有一个正确的答案而且文件支持那个答案,但是字符串含有比这个更多的答案或者是有小部

47、分不能回答。局部正确答案字符串由一个返回文件支持的正确答案组成,但是文件集合里面含有一个矛盾的答案评估人认为比原来的更好。全局正确答案字符串由一个返回文件支持的正确答案组成,而且文件集合里面不含有一个矛盾的答案评估人认为比原来的更好。为了得到响应,一个答案字符被要求含有合适的单位并且涉及到正确的主体EG,TAJMAHAL赌场不能被回答如果问题被问题“THETAJMAHAL)。问题同时也要在被问题序列暗示的时间框架内被解读。例如,如果目标是事件“法国赢得了世界杯”,然后提问是谁是法国队的教练然后正确答案一定是“AIMEJACQUET”,在1998年法国赢得世界杯时教练的名字,而不是过去或者现在法

48、国队教练的名字。“零或无”回答是正确的如果库里面没有对于问题的可用回答。在测试机组中360个中的16个,“零或无”是正确答案。对于26个问题,没有系统给与正确答案,虽然这个评估人发现这个问题的确有正确答案。这种可能就是不一样的文件支持矛盾的答案变成正确了。一串被关联文件支持的正确的答案字符串被假设为全局性的正确除非文本集合里面有更好的,抗辩的答案。评估人被允许用多种标准来评定一个答案比另一个好,包括新进的支持性文件,和支持性文件所能提供支持的数量,支持性答案成为正确答案的独特信息来源,还有信息来源的可信度和权威性。评估人把一个或者更多的局域正确的答案标注成全局性正确答案。“全局性”正确是关于文本集合(知识库)而确定的,没有必要关于真实世界来确立。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 外文翻译

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。