1、统计学 从数据到结论第三章数据的描述 在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。3.1 如何用图来表示数据?3.1.1 定量变量的图表示 :1.直方图 对于一个定量变量,比如某个地区(地区 1)测量了 163个高三男生的身高( S3height1.txt) 。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或 “形状 ”的一个办法是画 直方图 (histogram)。 图 3.1就是利用这个数据由 SPSS软件所画的直方图。该图的横坐
2、标是身高区间,这里每一格代表 5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为 5cm),而纵坐标为各种身高区间的身高的频数。 直方图3.1.1 定量变量的图表示 :2.盒型图 简单一些的是 盒形图 (boxplot,又称箱图、箱线图、盒子图 )。 图 3.2的左边一个是根据地区 1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区 2)的高三学生的身高 ( height.txt, height.sav,第三章例 .xls)。盒型图盒子的中间横线是数据的中位数 (median),封闭盒子的上下两横线(边)为上下四分位数(点);按照 SPSS的默认选项,如果所有
3、样本中的数目都在离四分位点 1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是 1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出3.1.1 定量变量的图表示 :3.茎叶图 在直方图和盒形图中,很难恢复数据的原貌。而另一种图: 茎叶图 (stem-and-leaf plots)可以恢复数据 以地区 1高三男生身高为例(图 3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。茎叶图其中茎叶图中茎的单位为 10cm,而叶子单位为 1cm。比如,由于第一行茎为 150cm,因此叶子中的九个数字 001223344代表九个数目 150、 150、 151、 152、 152、 153、 153、 154、 154cm等。每行左边有一个频数(比如第一行有 9个数目,第二行有 17个等等);可以看出最长的一行为从 165cm到 169cm的一段(有 35个数)。