用身高和体重数据进行性别分类的报告.DOC

上传人:国*** 文档编号:976867 上传时间:2018-11-10 格式:DOC 页数:18 大小:308KB
下载 相关 举报
用身高和体重数据进行性别分类的报告.DOC_第1页
第1页 / 共18页
用身高和体重数据进行性别分类的报告.DOC_第2页
第2页 / 共18页
用身高和体重数据进行性别分类的报告.DOC_第3页
第3页 / 共18页
用身高和体重数据进行性别分类的报告.DOC_第4页
第4页 / 共18页
用身高和体重数据进行性别分类的报告.DOC_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、用身高和体重数据进行性别分类的实验报告(二)一、 基本要求1、试验非参数估计,体会与参数估计在适用情况、估计结果方面的异同。2、试验直接设计线性分类器的方法,与基于概率密度估计的贝叶斯分类器进行比较。3、体会留一法估计错误率的方法和结果。二、具体做法1、在第一次实验中,挑选一次用身高作为特征,并且先验概率分别为男生0.5,女生 0.5 的情况。改用 Parzen 窗法或者 kn近邻法估计概率密度函数,得出贝叶斯分类器,对测试样本进行测试,比较与参数估计基础上得到的分类器和分类性能的差别。2、同时采用身高和体重数据作为特征,用 Fisher 线性判别方法求分类器,将该分类器应用到训练和测试样本,

2、考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用 Bayes 方法求得的分类器也画到图上,比较结果的异同。3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。三、原理简述及程序框图1、挑选身高(身高与体重)为特征,选择先验概率为男生 0.5 女生 0.5 的一组用Parzen 窗法来求概率密度函数,再用贝叶斯分类器进行分类。以身高为例本次实验我们组选用的是正态函数窗,即 ,窗宽为21()exp2uu(h 是调节的参量,N 是样本个数) , (d 表示维度) 。因为/N NVh区域是一维的,所以体积为 。Parzen 公式

3、为 。NnVhPx1NiiNxVh故女生的条件概率密度为 1NiinxpVh男生的条件概率密度为21NiinxpVh根据贝叶斯决策规则 知 2gxwpw如果 ,否则, 。11*2(),ppx流程图如下:2、要求是同时采用身高和体重数据作为特征,用 Fisher 线性判别方法求分类器,将该分类器应用到训练和测试样本,考察训练和测试错误情况。将训练样本和求得的决策边界画到图上,同时把以往用 Bayes 方法求得的分类器也画到图上,比较结果的异同。说明,取男生和女生的先验概率分别为 0.5,0.5。在设计贝叶斯分类器时,首先求各类样本均值向量,及 ,然后求各个样本的来内离散2,1ixNmii度矩阵,

4、及 ,再求出样本的总类内离散度,及,xsTiwxiii,根据公式 求出把二维 X 空21sps21ms间投影到一维 Y 空间的最好的投影方向。再求出一维 Y 空间中各类样本均值,其中 ,本次实验的分界阈值我们用如下方2,11 iyNmiiixy*法得到: ,最后,将测试样本中的值代入,求出 y,并将210Nm其与 y0 来进行比较来分类。根据课本对 Fisher 线性判别法的介绍,得到的算法流程图如下:3、选择上述或以前实验的任意一种方法,用留一法在训练集上估计错误率,与在测试集上得到的错误率进行比较。这里我们选择 Fisher 线性判别法,用留一法来估计它在训练集上的错误率,并将结果与 Fi

5、sher 线性判别法对测试集进行判别时得到的错误率进行比较。具体流程图如下:四、实验结果及分析总结1、得到结果如下表以身高作为特征h=4估计方法女生先验概率男生先验概率男生错误个数女生错误个数总错误男生错误率女生错误率总错误率0.25 0.75 22 8 30 16% 8.8% 10%0.5 0.5 34 4 38 13.6% 8% 12.67%Parzen 窗法0.75 0.25 80 2 82 32% 4% 27.33%0.25 0.75 20 6.667%0.5 0.5 27 9%最大似然Bayes0.75 0.25 60 20%以身高与体重作为特征h=7估计方法女生先验概率男生先验概率

6、男生错误个数女生错误个数总错误男生错误率女生错误率总错误率0.25 0.75 7 22 29 14% 8.8% 9.67%0.5 0.5 38 2 40 15.2% 4% 13.33%Parzen 窗法0.75 0.25 2 46 48 18.4% 4% 16%0.25 0.75 8 6 14 3.2% 12% 4.67%0.5 0.5 29 3 32 11.6% 6% 10.67%最大似然Bayes0.75 0.2 59 1 60 23.6% 2% 20%分析:通过比较可知,在用最大似然估计这种参数估计方法和 Parzen 这种非参数估计方法来进行分类时,最大似然估计判别的错误率低。2、得到

7、结果如下(1) 、用 Fisher 线性判别方法求分类器,将分类器应用到训练和测试样本上,比较其错误率判别对象男生错误个数女生错误个数总错误 男生错误率女生错误率总错误率测试样本27 2 29 10.8% 4% 9.67%训练样本8 4 12 16% 8% 12%分析:用训练样本得到的分类器测试测试样本时错误率低,测试结果较好,但测试训练样本时,其错误率较高,测试结果不好。(2) 、将训练样本和求得的决策边界画到图上先验概略为 0.5,0.5从图中我们可以直观的比较出对训练样本 Fisher 判别比最大似然 Bayes 判别效果更好。3、留一法测试结果如下:判别对象男生错误个数女生错误个数错误

8、率测试样本81 3 28%训练样本8 4 12%分析:用留一法在训练样本机上估计错误率时,错误率小于它在测试样本集上得到的错误率,且留一法在测试样本集上女生错误个数远低于男生错误个数。五、体会这次实验,我们组用了接近三天的时间,首先,我们对题目要求进行认真分析,在确保对题目完全理解的基础上,开始一步一步分析,求解。对每个小题,及其每一问,我们都经过查书,查资料,编代码这几个步骤,仔细分析每一步算法,得出流程图。经过第一次作业的编程,本次编程我们都觉得轻松了很多,但还会出现一些细节上的错误,不过,这些在我们经过不断的调试之后都会被发现并解决。总体而言,本次试验,让我们对 Parzen 窗法求类条

9、件概率密度,以及 Fisher 线性判别法都有了更大的了解。代码:%特征是身高,先验概率为0.5、0.5时用Parzen窗法,贝叶斯分类器。clc;clear all;FH FW=textread(C:UsersxuydDesktophomeworkFEMALE.txt,%f%f);MH MW=textread(C:UsersxuydDesktophomeworkMALE.txt,%f%f);FA=FH FW;MA=MH MW;N1=max(size(FA);h1=4;hn1=h1/(sqrt(N1);VN1=h1/(sqrt(N1);N2=max(size(MA);h2=4;hn2=h2/(

10、sqrt(N2);VN2=h2/(sqrt(N2);tH tW=textread(C:UsersxuydDesktophomeworktest2.txt,%f%f%*s);X=tH tW;M N=size(X);s=zeros(M,1);A=X(:,1) X(:,2) s;error=0;errorgirl=0;errorboy=0;errorrate=0;errorgirlrate=0;errorboyrate=0;girl=0;boy=0;bad=0;for k=1:M %测试集x=A(k);p=0.5;%p为属于女生的先验概率,则1-p为男生的先验概率for i=1:N1pp(i)=1/

11、sqrt(2*pi)*exp(-0.5*(abs(x-FA(i)2/(hn12);%pp(i)是窗函数endp1=sum(1/VN1*pp); y1=1/N1*p1;%是女生的条件概率密度函数for j=1:N2qq(j)=1/sqrt(2*pi)*exp(-0.5*(abs(x-MA(j)2/(hn22);endq1=sum(1/VN2*qq);y2=1/N2*q1;%男生的概率密度函数,即其条件概率g=p*y1-(1-p)*y2;%g为判别函数if g0if k0if k=50s(k,1)=0;%判为女生girl=girl+1;else errorboy=errorboy+1;endelseif g0if k=50errorgirl=errorgirl+1;elses(k,1)=1;%判为男生boy=boy+1;endelses(k,1)=-2;%不能判别是指等于0时的情况bad=bad+1;endend errorgirlerrorboy

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。