1、第一章 统计分析基础知识统计学: 是一门收集、分析、展示和解释数据的艺术和科学。埃及金字塔与 “ 人口金字塔 ” 艺术性 :统计方法的应用具有技巧性、技术性,它展现数据时往往让我们能享受美感和实用 统计学研究对象:收集数据;分析数据 我该什么时间上网?收集数据时间 上网比例 时间 上网比例 时间 上网比例0点 14.50% 8点 11.80% 16点 31.20%1点 5.60% 9点 22.50% 17点 27.70%2点 4.20% 10点 24.60% 18点 22.10%3点 2.60% 11点 22.60% 19点 31.30%4点 2.50% 12点 22.60% 20点 44.0
2、0%5点 1.60% 13点 24.30% 21点 43.90%6点 1.70% 14点 28.60% 22点 35.00%7点 2.70% 15点 31.40% 23点 22.20%互联网的用户人数及分布、信息流量分布、域名注册等信息以及用户每月实际花费的上网费用、用户平均每周上网时间、用户通常在什么时间上网等资料都可以从电讯局或网络公司的业务记录中获得 。整理数据用户通常上网时间 展示数据。互联网上各时间段的使用比例 分析数据: 晚上的八九点钟是上网的高潮,而清晨五六点钟则上网的人最少。 作出决策: 为高效率改变一下习惯,早点起就可享受到在网上飞驰的感觉 统计学应用领域:统计学为有史以来最
3、大的公共健康试验 1954 年脊髓灰质炎疫苗试验提供了有效的试验设计,为人类首次攻克脊髓灰质炎作出贡献。天气预报就是应用大气变化的规律,根据当前及近期的天气形势,对未来一定时期内的天气状况进行预测 ,这种预测不过是未来天气状况的概率分布。1981年,首届国际 红楼梦 研讨会在美国召开,威斯康星大学讲师陈炳藻独树一帜,宣读了题为 从词汇上的统计论 红楼梦 作者的问题 的论文。他从字、词出现频率入手,通过计算机进行统计、处理、分析,对 红楼梦 后40回系高鹗所作这一流行看法提出异议,认为 120回均系曹雪芹所作。 (语言统计学 ) 大仲马有很多私生子,往往成为别人取笑讥讽的对象,最使他头痛的是巴黎
4、统计学会的秘书长李昂纳,每次举统计数字 的例子,总是说大仲马的情妇和私生子有多少。 有一年该统计学会开年会,大仲马估计,李昂纳又要大放厥词,说他的坏话了。于是他 请求参加年会,获得了批准,果然不出大仲马所料,李昂纳又举他的情妇和私生子的例子。 李昂纳报告完毕,请大仲马致词。一向不愿在大庭广众之下发表演讲的大仲马,这次却 破例登台说: “ 所有统计数字都是撒谎的,包括有关本人的数字在内。 ” 听众哄堂大笑。 统计学家调侃数学家:你们不是说若且,则吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?数学家的幽默数学家反问道:那么你把左手放到一锅 100 的开水中,右手放到一锅 0的冰水
5、里想来也没事吧!因为它们平均不过是 50 而已! ” 统计学的内容 从统计方法的构成来分,统计学可以分为描述统计学和推断统计学 1. 描述统计学( Descriptive Statistics)描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。2. 推断统计学( Inferential Statistics)推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统
6、计总体的未知数量特征作出以概率形式表述的推断。第一节:统计学基本概念一、总体和样本总体: 同质事物的全体,通计学上的总体指的是包含所有个体某种性状观测值的集合。总体容量( N):总体所包含个体数目的多少。无限总体:总体所包含的个体数目有无穷多个 有限总体:由有限个个体构成的总体样本 总体中抽取的若干个个体组成的集合。样本容量 ( n) :样本所包含个体数目的多少大样本: n30小样本: n30二、参数和统计数参数 :有总体中的观测值计算得到的特征数,它反映的是总体的特征和规律。比如总体平均数、总体方差、总体 标准差等统计数 :有样本中的观测值计算得到的特征数,它反映的是 样本的特征和规律。比如 ;样本平均数、样本方差、 样本标准差等三、数据和变量数据: 组成总体或样本的观测值变量: 相同性质的事物间表现出差异性和差异特征的数据,它们在一定范围内波动。变量:随机性变量: 由于偶然因素引起数据产生波动性。非随机性变量: 由于非偶然因素引起数据产生变化。变量:连续性变量: 在一定范围内可以抽取所有可能取值的变量离散性变量: 只能取固定数值的变量。