ImageVerifierCode 换一换
格式:PPT , 页数:13 ,大小:99KB ,
资源ID:323555      下载积分:100 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-323555.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘.ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

数据挖掘.ppt

1、SEWM2007中文网页分类评测参赛系统说明,北京大学信息管理系小组成员:王建冬 田飞佳,内容提要,分类系统模块结构各模块主要算法系统运行环境介绍,分类系统模块结构,分类系统模块结构,系统设计整体思路,对训练集(包括训练集1和2)进行网页净化然后对净化后的中文文本进行分词,接着从切分后的文本中选取最合适的特征向量表示文档,再利用分类模型对特征向量进行处理,确定其类别。根据评测程序比较分类结果与网页本身所属的类别,并通过调整特征向量提取和分类模型的算法,以及调整参数的设定,使测试集评测指标达到最优。在评测指标达到最优以后,也就确立了分类器。,系统模块详解,网页净化模块 中文分词模块 特征项提取模

2、块 分类模块,网页净化模块,提出了一个基于开源项目Htmlparser的同层次表间比较迭代算法 。抽取网页主要内容及权值: 标题(title) 权值为8 正文 (content) 权值为6 URL锚文本 权值为3,网页进化算法(对于正文),对网页结构进行分析,认为网页内容块无论形式如何,必定是存放在某一个表格中,对于不在表格中的部分,将其看作一个表格,便于处理。根据表格的嵌套关系对每个表格进行分级,对处于最高级别的表格进行比较。主要是根据table表格中包含的文字数目和表格中的一些特殊字符进行比较,按照一定规则将一部分table内容去除掉。将剩下的内容视为一个新的网页,并进行同样的迭代操作。进

3、行数次迭代消除网页“噪声”(经过反复实验我们认为进行四次迭代后网页“去噪”效果最好)。,网页进化算法(对于URL锚文本),经过调研,我们认为网页URL一般具有以下两条规律:锚文本长度一般不长、越长的url一般越重要。我们计算每条锚文本与净化处理后的网页标题的编辑距离,并将其除以锚文本长度,选取该值小于1.5的锚文本为重要链接。,中文分词模块,采用了中科院的切词系统进行分词,但是发现中科院的切词系统存在一些问题,比如无法处理某些乱码,当网页中连续出现超过94个的数字或者英文字母或者连续1000字符中间没有标点符号时,系统会报错等。 同时考虑到数据中有很多繁体字网页,不加以转换的话会影响最终的分类

4、结果。因此我们增加了简繁转化和乱码自动检测模块,成功解决了中科院切词系统在处理各种类型网页过程中可能遇到的问题。,特征项提取模块,选择了CHI作为特征项的提取方法。按照切分出的每个词的CHI值的大小进行排序,选择CHI值最大的前15%的词作为特征项。在计算特征权值的时候,我们使用tf*idf*CHI值为每个特征项进行加权,通过实验发现,在最好情况下,这样做比传统的tf*idf可以将分类结果提高0.5个百分点。,分类模块,采用了KNN分类模型,经过反复实验,确定K取15。考虑到虽然余弦相似度是全局的相似度,但是KNN的计算结果取决于少量权重极大的项,权重很小的项对相似度贡献很小,因此,我们为特征项权值设立了一个阈值0.01,在读入数据时只读入权重大于该阈值的特征项,而小于该阈值的则舍弃。,系统运行环境,硬件环境 CPU:AMD 1600+, 内存:256M,硬盘:80G,数量:8台操作系统 Windows XP编程语言 Java,Thank you!,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。