ImageVerifierCode 换一换
格式:PPT , 页数:17 ,大小:824KB ,
资源ID:1187030      下载积分:10 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1187030.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(面向自动文摘的主题划分方法.ppt)为本站会员(da****u)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

面向自动文摘的主题划分方法.ppt

1、面向自动文摘的主题划分方法童毅见 2012-11-4主题的概念1,主题的定义现状: 鲜有确切的关于主题的定义。2,几个关于 “ 主题 ” 的定义 Labadi认为主题是会话或讨论的主要问题 Chafe主题是正在讨论的命题 所谓 “ 主题 ” ,是介于篇章与段落之间的一个语言单位,一个主题表达或阐述一个相对独立的意义或话题3,本文对主题的定义主题是用来描述一个话语片段所表达内容的一种直观方式,该话语片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位,但是可以通过篇章集、段落集或句子集的方式呈现。主题划分1,主题划分的概念 主题划分就是将一个含有多个主题的话语(在本文中以文本方式体现)切分

2、成一系列单个主题。 Reynar认为,作者在写作前,会在脑海中收集一些没有连接的主题,在写作过程中为了保证文本的流畅,会有意无意的设置一些主题边界2,主题划分的分类 主题划分可以分为层次划分( hierarchical segmentation)和线性划分( linear segmentation) 从划分结果来看,线性划分还可以进一步分为连续划分和非连续划分主题划分对自动文摘的意义1,有助于平衡摘要的结构,提高摘要的覆盖面如果采用传统的基于句子重要度从高到低抽取的方法,很容易造成对次要主题的遗漏或忽略,并且容易导致主要主题的冗余。2,主题特征对自动文摘的促进作用Louis.et al.在比较

3、话语结构特征、语义特征和非话语性特征(如主题词、句子位置等)在单文档自动文摘中的效果时发现,基于话语结构特征的方法在摘要内容上效果最好常见主题划分方法1,基于词汇衔接理论的方法TextTiling、 C99、 dotplotting2,融合特定语言现象和文本特征的方法1)特定领域的提示短语。例如在广播新闻文本中, joining us2)二元词组频率。避免单词频率引发的歧义问题;3)命名实体的重复。4)代词特征。3,基于概率统计模型的方法PLSA(概率潜在语义分析)、 LDA( Latent Dirichlet Allocation)以及小世界模型TSF算法 由 Kern & Granitzer提出,是一种基于滑动窗口技术的主题划分方法算法 该算法在很多方面与 TextTiling算法相近,也是一种基于词汇衔接理论的方法 。 根据文章呈现的评价结果, TSF算法在切分效果上要远好于 TextTiling算法,并且只有 O(n)的计算复杂度。 TSF算法默认主题是由句子集组成TSF算法描述TSF算法描述关于主题的呈现方式的讨论1,句子集 or 段落集2,主题的呈现方式与文本的特征、任务对主题颗粒度的要求有关3,自动文摘对主题划分颗粒度的要求4,句子集 and 段落集以段落集为主题表征的 TSF算法

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。