ImageVerifierCode 换一换
格式:PPT , 页数:41 ,大小:387.50KB ,
资源ID:1419716      下载积分:12 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-1419716.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(分类-数据挖掘-韩家炜-3.ppt)为本站会员(99****p)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

分类-数据挖掘-韩家炜-3.ppt

1、本讲内容n 贝叶斯分类n 基于神经网络的分类Date 1Data Mining: Concepts and TechniquesBayesian Classificationn 是一种基于统计的分类方法,用来预测诸如某个样本属于某个分类的概率有多大n 基于 Bayes理论n 研究发现, Nave Bayes Classifier在性能上和 Decision Tree、 Neural Network classifiers 相当。在应用于大数据集时,具有较高的准确率和速度n Nave Bayes Classifier假设属性值之间是独立的,因此可以简化很多计算,故称之为 Nave 。 当属性值之

2、间有依赖关系时,采用 Bayesian Belief Networks进行分类。Date 2Data Mining: Concepts and TechniquesBayesian Theorem: Basicsn 假设 X是未知分类标号的样本数据n H代表某种假设,例如 X属于分类 C n P(H|X): 给定样本数据 X, 假设 H成立的概率n 例如,假设样本数据由各种水果组成,每种水果都可以用形状和颜色来描述。如果用 X代表红色并且是圆的, H代表 X属于苹果这个假设,则P(H|X)表示,已知 X是红色并且是圆的,则 X是苹果的概率。Date 3Data Mining: Concepts

3、 and TechniquesBayesian Theorem: Basicsn P(H): 任一个水果,属于苹果的概率 .(不管它什么颜色,也不管它什么形状 )n P(X): 任一个水果,是红色并且是圆的概率(不管它属于什么水果 )n P(X|H) : 一个水果,已知它是一个苹果,则它是红色并且是圆的概率。n P(H|X) : 一个水果,已知它是红色并且是圆的 ,则它是一个苹果的概率。Date 4Data Mining: Concepts and TechniquesBayesian Theorem: Basicsn 现在的问题是,知道数据集里每个水果的颜色和形状,看它属于什么水果,求出属于

4、每种水果的概率,选其中概率最大的。也就是要算: P(H|X)n 但事实上,其他三个概率, P(H)、 P(X)、 P(X|H) 都可以由已知数据得出,而 P(H|X)无法从已知数据得出n Bayes理论可以帮助我们:Date 5Data Mining: Concepts and TechniquesNave Bayes Classifiern 每个数据样本用一个 n维特征向量表示,描述由属性对样本的n个度量。n 假定有 m个类。给定一个未知的数据样本 X( 即,没有类标号),分类法将预测 X属于具有最高后验概率(条件 X下)的类。即,朴素贝叶斯分类将未知的样本分配给类 Ci , 当且仅当:这样

5、,我们最大化 。其最大的类 Ci称为最大后验假定。根据贝叶斯定理 :Date 6Data Mining: Concepts and TechniquesNave Bayes Classifiern 由于 P(X) 对于所有类为常数,只需要 最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即, 。并据此只对最大化。否则,我们最大化 。类的先验概率可以用 计算;其中, si是类 C中的训练样本数,而 s是训练样本总数。Date 7Data Mining: Concepts and TechniquesNave Bayes Classifiern 给定具有许多属性的数据集,计算 的开销可

6、能非常大。为降低计算的开销, 可以朴素地假设属性间不存在依赖关系。这样,概率 , , 可以由训练样本估计,其中,(a) 如果 Ak是分类属性,则 ;其中 sik 是在属性Ak 上具有值 xk 的类 Ci 的训练样本数,而 si 是 Ci中的训练样本数(b) 如果是连续值属性,则通常假定该属性服从高斯分布。因而,其中,给定类 Ci的训练样本属性 Ak的值, 是属性 Ak的 高斯密度函数 ,而 分别为平均值和标准差。Date 8Data Mining: Concepts and TechniquesNave Bayes Classifiern 为对未知样本 X分类,对每个类 Ci, 计算 。样本 X被指派到类 Ci, 当且仅当:换言之, X被指派到其 最大的类 Ci。Date 9Data Mining: Concepts and TechniquesTraining datasetClass:C1:buys_computer=yesC2:buys_computer=noData sample X =(age=30,Income=medium,Student=yesCredit_rating=Fair)Date 10Data Mining: Concepts and Techniques

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。