数据挖掘(计科一班杨平1025115034)题目:iris数据集下的朴素贝叶斯实现一问题描述:Iris数据集是在分类和模式识别研究中常用的基准数据。它是根据花瓣和萼片的长度和宽度来对Iris进行分类。Iris数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。分类是利用预定的已分类数据集构造出一个分类函数或分类模型(也称作分类器),并利用该模型把未分类数据映射到某一给定类别中的过程。 原理描述:贝叶斯公式的实质是通过观察样本将状态的先验概率转化为状态的后验概率,给定一个未知类别的数据样本,贝叶斯分类法将预测属于具有最高后验概率的类。本问题可以数学描述为多元正态概率型下的最小错误率贝叶斯分类。 1)先验概率设数据库表有个属性,因此,可以用一个维列向量来表示。同时,假定有个类。如果类的先验概率未知,则可以假定这些类是等概率的,即,且其中,是类中的训练样本数,而是训练样本总数。2)参数估计对于多变量正态分布,估