1、Web新闻人物追踪系统的设计与实现 姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞 提纲o 引言n 动机n 难点o 相关研究n 指代消解n 实体关系抽取o 具体工作n 文本中关键词的提取n 人物指代消解n 时间指代消解n 简历型网页 /段落的判定 n 人物踪迹追踪系统的实现o 总结http:/引言http:/引言 -动机o 广泛的需求o 还没有搜索引擎正式提供关于人物的搜索服务o 展示 Webdigest小组长期工作成果的展示平台o 作为天网的一部分http:/引言 -难点o 胡锦涛主席将于 5月 6日至 10日 对日本
2、进行 5天的国事访问。除东京外, 他 还将访问横滨和奈良,并从大阪启程回国时间指代消解,人物指代消解o 吴仪中共中央政治局委员,国务院副总理。女,汉族, 1938年 11月生,湖北武汉人, 1962年 4月加入中国共产党, 1962年 8月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。1956年至 1962年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。 1962年至 1965年兰州炼油厂车间技术员、政治部办公室干事。 1965年至 1967年石油工业部生产技术司生产处技术员。简历型网页的判断http:/相关研究http:/相关研究 -指代消解 -人物指代
3、消解o Borrow 的 STUDENT系统:利用有限的启发式规则o Winograd的 SHRDLU系统:基于语法位置o Wilks的 Preference semantics系统:利用简单的语义知识的四级指代消解系统o Hobbs算法:基于句法分析,通过搜索句法树,寻找先行词o Ido Dagan和 Alon Itai:利用共现模式从大规模语料库中自动获取约束o Mitkov:有限知识方法,应用一系列规则o Soon:利用机器学习,构造一个分类器判断是否是指代关系http:/相关研究 -指代消解 -时间指代消解o Inderjeet Mani, George :一个时间消解的框架。处理中文
4、需要解决更多问题借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想http:/相关研究 -实体关系抽取o Brin 1998, Agichtein 2000:先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。 o Etzioni 2004:根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。 o Takaaki Hasegawa 2004:基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。 o Yutaka Matsuo 2006:以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系 http:/具体工作http:/