1、华中师范大学国家语言资源监测与研究中心网络媒体语言分中心涂新辉,基于排序学习的文本概念标注方法研究,人类理解自然语言的过程是一个语义概念的联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂神经网络所提供的。,大脑的语言能力,传苹果将于2012年乔布斯生日当天发布iPad 3,新闻标题,大脑概念层,苹果公司,乔布斯,iPad,苹果,苹果遭遇对手!高分辨率屏幕手机盘点,德国法院驳回苹果对三星的诉讼,平安夜吃苹果 圣诞节中国化,手机,水果市场箱装苹果缩水 纸箱被灌水泥重6斤,水果,三星公司,和人脑的基于概念的语义表征方法不同的是:“词袋”模型可以捕获文档的词语的细节,但是难以表征文档的
2、主题信息。,传统文本表征模型的困境,传苹果将于2012年乔布斯生日当天发布iPad 3,新闻标题,苹果遭遇对手!高分辨率屏幕手机盘点,德国法院驳回苹果对三星的诉讼,平安夜吃苹果 圣诞节中国化,水果市场箱装苹果缩水 纸箱被灌水泥重6斤,“词袋”模型,苹果,乔布斯,iPad,手机,水果,三星,概念是描述文本主题的非常重要的信息基于概念的文本表征可以捕获文本的主题信息,研究动机,传苹果9月发布iPhone5 年底推出全新iPad据报道,苹果将在今年9月正式发布新一代iPhone,目前该机的量产工作即将开始。苹果产业链内部人士还爆料称,苹果将在下代iPhone发布前即今年8月,推出传闻多时的7.85寸
3、mini版iPad,与此同时,今年年底时,他们还将发布新一代iPad。,在大多数文档集中并没有可以直接利用的标注好的概念本文中提出了一种利用排序学习模型自动生成概念标注的方法,基于维基百科概念的方法,概念库的构建,要建立能够表征文本中所蕴含中各种复杂主题所使用概念集合应该满足以下条件:包含覆盖不同领域主题的海量概念新的概念能够及时加入到这个概念库中这些概念应该是人可以理解的要建立和维护这样应该自然概念的集合是一个异常艰巨的任务。幸运的是,维基百科这个世界上最大的百科知识库已经满足了上面的几个要求。,概念库,?,维基百科概念库的统计信息和结构,相关背景已有的概念标注方法,基于关键词匹配(Davi
4、d Milne, 2008 等)基于内容相关性匹配(显示语义分析, Gabrilovich, 2007 ),提出新标注方法的研究动机,显示语义分析模型只考虑概念和文本的相关性,没有考虑概念本身的其它特征可能有多种特征会影响我们使用概念来表示文本,希望利用有导学习的方法让机器学习人类在使用概念来表示文本时考虑的各种因素,相关背景排序学习基本思想,当文档中的特征越来越多时,通过人工设定特征的权重信息来构建模型对文档排序的方法就难以为继了。排序学习 (Learning to rank) 的方法试图利用有导学习的方法自动建立对象的排序模型。,Ranking SVM 方法,输入是针对一组查询的偏序排序信
5、息的一组训练集合:给定概念的训练数据和相关性排序信息,我们希望找到一个权重向量尽可能多地满足以下条件:实际上,没有有效的方法找到完全满足条件的权重向量 。但是,可以把这个问题转换为一个标准的 SVM 优化问题:,特征列表,训练集生成系统,12位用户使用一个专门开发的文档段落标注系统为600个段落进行了人工标注,训练样本示例,标注完成后共得到3387个概念,平均每个段落5.6个概念。在实验中我们同时选取了未被选择的3500个概念作为反例。,自动生成的概念标注示例,和传统方法的比较,不同概念数的比较,总结,维基百科这个世界上最大的百科知识库维基百科涵盖了大部分日常使用的概念,是建立通用概念库的绝佳资源。实验表明,本章中利用Ranking SVM 排序学习算法得到的概念排序模型,比传统的文档概念映射方法在各类指标上都有相当大的提高,这个标注系统比传统的方法得到的概念标注更加接近人类的概念标注,研究中文文本的概念标注把本文中的方法应用到各类自然语言处理任务中,未来工作展望,谢谢!请各位专家指正!,