1、文本挖掘核心技术及其应用2目录文本挖掘步骤文本挖掘功能文本挖掘应用3文本挖掘步骤文 本 挖掘的一般处理过程特征的建立特征集的缩减学习与知识模式的提取 知识模式模式质量的评价文档集4文本源原始数据预处理过滤虚词合并词根分词特征表示计算权值合并特征过滤特征特征提取权值调整特征约减文本挖掘文本分类文本聚类关联分析模式提取分类模式聚类模式关联规则结果展示展示界面文本挖掘步骤5文本挖掘主要功能及应用文本挖掘 应用实现功能自动分词 文档归类自动分类自动聚类信息抽取文本相似性检索自动摘要舆情监控垃圾邮件过滤企业竞争情报系统电子商务客户自动问答6目录文本挖掘步骤文本挖掘功能文本挖掘应用7自动分词8自动分类莫言
2、对话杨振宁:来生学物理,当下梦飞天时政 社会 军事评论 文化国际 历史9自动聚类自动对大量无类别的文档进行归类,把内容相近的文档归为一类 ,并 自动为该 类生成 主题词,为用户确定类目名称提供方便 。文本 1文本 2文本 3文本 4文本 5类别 1:关键词: 比赛、赛季、联赛、球队、比分 、太阳 、 NBA、球员队员、 领先类别 2:关键词: 旅游 、黄金、游客、记者、旅行社 、中国 、国家、假日、北京、线路类别 3:关键词: 公司 、企业、招聘、面试、求职 、专业、职业 、学生、大学、人才10信息抽取信息抽取是从 文本中抽取指定的一类信息(事件、事实)并将其形成结构化的 数据,填入 一 个数据库中以供 用户查询 使用。会 议时间 1998年 3月 9日会 议 地点 北京会 议 召集者 /主持人个人姓名 /团体名称 Name蒋正 华机构、 职 位Org/Post主席, 农 工民主党中央会 议 名称 /标题中国 农 工民主党第十二届中央常 务 委 员 会第一次会 议