1、NLP&CC2013 中文微博观点要素抽取研究,指导老师:丁晟春 汇报人:李霄南京理工大学信息管理系,研究背景及意义,网络文本数量庞大,情感分析,观点挖掘,观点要素抽取,深层次的挖掘研究,实验方案,实验语料: 训练语料:测评语料的20% 测试语料包含10个微博话题,共计12382条微博。语料预处理: LJParser数据挖掘及语义分析智能开发平台中的语料库分词系统。实验方法: CRFs模型,中文微博娱乐本体设计,微博中的话题涵盖了人物、事件等要素,具体的事件或影视作品又牵扯到方方面面之间的联系。在分析NLP&CC2013中文微博观点要素抽取评测语料基础上,构建中文微博娱乐本体。,中文微博娱乐本
2、体:类:27个数据属性:69个类间关系:33个实力若干,中文微博娱乐本体设计,核心大类之间的关系,指示词,评价对象,评论者,评论,展现对其的感情,描述,提取出,来源于,写,评论,图1 核心大类之间的关系,中文微博娱乐本体设计,所定义的核心类基础上,通过等级关系(subClassOf)扩展“评论对象”类和“指示词”类,形成的等级体系。在等级关系(subClassOf)的基础上继续扩展本体的等级关系,同时借鉴顶层本体SUMO中关系的定义,实现实验本体中非等级关系的定义。非等级关系包括整体-部分关系、同义关系、反义关系、转指关系、因果关系,中文微博娱乐本体设计,指示词分为属性指示词和情感指示词两种。
3、属性指示词是指能够表示度量单位的词汇,这些词汇用来指示微博话题中一些属性的参数。情感指示词是指能够表示评论者对评论对象的褒贬态度的词汇,如“好/坏”指示某电影的水平等。,中文微博娱乐本体设计,“人物”类的层级定义(举例1),人物,图2 “人物”类的一级体系结构,导演,摄影师,编剧,服装师,Is-a,道具师,演员,歌手,作词者,作曲者,其他名人,中文微博娱乐本体设计,“新闻”类的关系定义(举例2),新闻,图3 “新闻”类与其他类之间的关系,Is-a,人物,明星公益,明星现场,明星秘闻,Is-a,Is-a,作为当事人,评价对象抽取实验,评价对象抽取之特征选择词特征词性特征情感特征本体特征,本体特征
4、表示的是词汇单元所具有的领域及其语义特性,反映了评价对象的领域共识。本文依据建立的实验本体,判断当前观察单元在该本体中的概念类别:类、属性或是实例,以辅助评价对象的抽取研究。,微博中表达的显性评价特征通常都是单独的词汇单元或是多个词汇单元组成的短语,直接反映了评价对象的构成规则。,由于微博中评价对象在表述过程中都表现出一些语法规则,很大一部分评价对象都通过名词来表达,某些还可能通过动名词,形容词+名词,量词+名词(如部+电视剧)来表达。,情感词不仅表达了评价者对评价对象的态度或是使用心得等评价信息,也在一定程度上能够反映评价对象在整条微博中的位置信息。情感词汇通常作为修饰的成分出现在评价语句中
5、,或放在评价对象前,或放在评价对象后,因此该特性能够反映评价对象的位置信息。,评价对象抽取实验,特征选择预实验(五组实验),评价对象抽取实验,评价对象抽取实验结果分析(宽松评价指标),评价对象抽取实验,评价对象抽取实验结果分析(严格评价指标),总结及展望,模型能够尽可能多的识别出微博中的评价对象,同时获得了较高的准确率。验证了CRFs模型及实验中选择四类特征及设计的特征模板的有效性。对于一些隐性评价对象并没有识别出。没有进行详细的整条微博的语法分析。深入挖掘在线商品评论中隐性评论对象的特征,从而优化该抽取方法提高对评论对象的抽取整体效率。,研究团队介绍,骨干成员老师:丁晟春:研究方向为信息系统开发、文本挖掘与商务智能、信息检索、网络信息资源的开发。最近致力于商品评论的可信度,网络舆情及本体知识库构建等。吴鹏:用户心智模型,群体模拟与仿真等章成志:近期主要的研究方向为多语言文本挖掘、多语言领域本体学习、主题聚类及其应用、关键词自动提取、术语自动提取、跨语言信息处理与检索等。学生:孟美任 李霄 马旭凯 夏子然 史金晶 李红梅 等等,Thank you!,