1、 统计分析与spass的应用 期末课程论文论文名称:SPSS在数字图书馆用数据分析中应用 姓名:许明蕾学号:1103111063班级:11市场营销1班指导教师:陈兆荣日期:二零一四年六月SPSS在数字图书馆用数据分析中应用介绍spass的产生、发展和特点.。在此基拙上, 阐明采用spass分析数字图书馆用户数据的原因。着重论述如何将spass应用于数字图书馆用户数据的分析, 包括数据获取、统计和分析三个方面。其中, 重点是时间序列分析、参数估计、假设检验、回归分析、相关分析、方差分析、聚类分析和多元统计分析及其中的因子分析等几个方面。最后指出应用SPS S 进行数字图书馆用户数据分析的意义。关
2、键词) spass数字图书馆用户数据统计分析应用1,spass简介spss即社会科学统计软件包, 是一套模块化的统计分析软件。20 世纪60年代末, 美国斯坦福大学的三位研究生研制开发了最早的统计分析软件spass同时成立了spass公司, 并于1975 年在芝加哥组建SPS 总部。Spass公司己推出9 个语种的版本,20 04 年6 月正式推出了其最新中文版spass12.0 中文版。目前, spass与sas (Staistiel An alysis System , 统计分析软件) 、BMD p (Biomed ieal programs , 生物医学程序)并称为世界上最有影响的三大统
3、计软件。Spass的主要特点有: (1)功能强大,几乎涵盖所有常用的统计分析方法; (2)提供视窗操作、全屏幕数据编辑;(3)拥有灵活的变量变换和文件交换系统;(4)既可在对话框中操作,又可编程实现; (5分析结果清晰、直观,可以用多种统计图表的形式输出且与Microsoft Office软件兼容;(6)软件易获取,安装简便, 占用空间小,运行速度快。2 采用spass分析数字图书馆用户数据的原因Spass由于其功能强大、操作简单,已经被广泛应用于社会科学、自然科学的各个领域,如经济学、生物学、心理学、医疗卫生、体育、数字图书馆( D L)是以数字形式存储和处理信息的新型图书馆,是一种充分利用
4、计算机技术和通讯技术等优势实现信息共享的数字化信息服务系统,是传统图书馆的扩展。数字图书馆将成为21世纪图书馆建设的主体和我国信息化建设的关键性基础设施,因此对数字图书馆的研究是非常有意义的。而数字图书馆用户数据中蕴含着丰富的信息, 如果能有效地挖掘出这些信息, 将对改进数字图书馆的服务起到巨大作用。Spass的应用正好可以为数字图书馆用户数据的分析提供有效途径。原因如下:Spass界面友好, 操作简单, 使得它易学好用, 为非统计学专业的人员熟练地应用它开展各项工作提供了方便。使用spass有技术和安全保障,因为在国际学术界有条不成文的规定,即在国际学术交流中,凡是用spass软件完成的计算
5、和统分析,可以不必说明算法,可见其影响之大和信誉之高。Spass在各个领域的广泛应用为将其应用于数字图书馆用户数据分析提供了宝贵的经验。数字图书馆系统可提供关于用户的完整、准确、实时的数据, 特别是数据库系统,可以提供大量的结构化数据,便于用spass进行分析, 保证了统计分析的数据来源。3 如何将spass应用于数字图书馆用户数据的分析可从数据的获取、统计和分析三个方面考虑,其中数据获取和统计是数据分析的基础,数据分析则是重点和最终目的。数据获取统计与调查研究活动的最终目的都是为了说明所研究现象总体的数量特征和规律性,为此首先必须搜集反映客观事实的数据。本文要搜集的是与D L用户相关的数据。
6、在搜集之前,首先应界定数字图书馆用户数据的范围。本文讨论的数字图书馆用户是指广义上的用户,既包括在该DL注册的, 拥有一定权限的正式用户,也包括只是浏览该DL网页的一般游客。前者的数据主要从D L的用户数据库中得到,后者的数据可以通过DL的日志、虚拟参考咨询记录等文件得到。因此, 前者的数据格式是标准的数据库表格,而后者大多是文本文档。Spass获取数据的方式主要有两种: 直接录人和从外部文件或数据库导人。本文的研究对象是数字图书馆用户数据,数据量大且与DL系统密切相关,可以比较方便地从DL系统生成的文件或DL的数据库系统中得到,所以不适合采用直接录人的方式.数据统计它研究如何对客观现象的数量
7、特征进行计量、观察概括和表述其主要内容有:确定所要研究的数量特征及其计量层次; 设计用来说明现象的数量特征的统计指标;搜集和整理数据;计算统计指标并用图表显示之。其作用主要是为下面的数据分析即推断统计奠定基础。进行数据统计, 首先要考虑数据文件的数据结构问题,即包含哪些变量和变量的属性。这里我们考虑一般的情况,比如:对于DL的用户数据库, 假定其中包括用户名、读者证号、注册时间、工作单位等用户基本信息,还有借书、还书、预借、续借的时间、工作站、读者证号、工作人员的信息、所借阅文献的信息等; 对于记载用户访问站点信息的Web 服务器日志(Web 109), 假定其包括: 访问者的IP地址、访问时
8、间、访问方式、访问的页面、协议、错误代码以及传输的字节数等信息。其他文件如虚拟参考咨询的记录等也是如此。另外, 文件被导入spass之后, 也可以根据需要重新定义变量、修改变量属性等,这些在spass中都是很容易实现的。下一步就是如何进行D L用户数据的统计。其中, 有的变量的数量特征比较直观, 很容易观察和描述, 比如某一变量的均值、最大值、最小值、某个值的出现频率等, 只要选择相应操作, 如排序、计数、分类、频率统计等即可得到所需结果; 另外一些变量的特征不容易被发现, 如集中趋势、分散程度和变化趋势等, 这时需要借助一些辅助手段, 如通过散点图、直方图、折线图、盒图(即马赛克图)直观地表
9、现变量的分布状况、变化趋势等。D L 有很多值得统计的用户数据, 数据分析这里重点讨论数字图书馆用户数据分析中应用较多的时间序列分析、参数估计、假设检验、回归分析、相关分析、方差分析、聚类分析和多元统计分析及其中的因子分析。1 时间序列分析随着时间的推移, 任何事物都会呈现出一种在间上的发展和运动过程。所谓时间序列分析,就是从时间的发展变化角度, 研究物在不同时间上的一段时间内, 其数量变化和时间的关系, 探索其随时间推移的演变趋势和变化规律,时间序列具备两个基本要素: 反映现象所属时间的时间要素和反映现象在不同时间上数量表现的统计数据的数据要素在spass中, 有关时间序列分析的操作在Ana
10、lyze ”菜单下的“T im e Se ries”中。将其应用于D L 用户数据的分析, 可得到某变量的平均发展水平、发展速度、发展趋势等, 通过时间序列的分解与组合, 还可进行季节因素及循环周期的测定和分析。比如, 通过用户数量的时间序列分析可看出总用户数随时间增减的速度和趋势; 通过借还书的月、日、小时的时间序列, 可看出借还书的周期和高峰; 通过组合或叠加各年中每个月、每个星期中每天或每天中每个小时的时间序列分析,可得到一年、一月、一周或一天内的借还书规律; 通过用户访问次数的时间序列分析则可得出用户访问服务器次数随时间变化的速度和趋势; 通过用户咨询频率的时间序列分析则可得出虚拟参考
11、咨询次数随时间变化的速度和趋势。参数估计参数估计是统计推断的常用方法之一。它是从样本出发构造一些统计量作为总体某些参数的估计量, 当取得一个样本值时, 就以相应的统计量的值作为总体参数的估计值。参数估计分为两类: 点估计和区间估计。点估计是由估计量的观察值作为未知参数的估计值, 这里又会涉及到一致性分析; 区间估计是只估计出未知参数的所在范围, 并指出参数被包含在该范围的概率, 即置信度。在spass中,对于DL用户数据,可以估计用户的上站时间、借书数量、用户下载电子图书的高峰时间段、一天之内访问的用户数等。假设检验假设检验是统计推断的另一种重要形式。它的基本任务是通过样本对未知的总体分布特征
12、做出合理的推测。它与参数估计不同参数估计是估计已存在的数据, 假设检验是推断未得到的数据。spass软件中有关假设检验的操作在“Analyze”下的“Nonparametrie Tests , 中。假设检验在DL用户数据分析中的应用将相当广泛, 如推测未来一段时间内增加的用户量、未来某天的上站人数、下载次数和字节数、用户将会提出的问题等。回归分析回归分析用于说明两个及两个以上变量间相互依存变化的数学关系。回归分析步骤为: 求取试验数据, 选择回归模型, 估计回归模型中的未知参数, 对选定的模型进行检验。它分线性回归和非线性回归两种。线性回归在理论上和应用上都极为重要, 是回归分析的主要部分。在
13、spass中, 调用“Analyzeo R egresion”中的“Linear”过程可完成二元或多元的线性回归分析, 在多元线性回归分析中,用户还可根据需要,选用不同的筛选自变量的方法(如逐步法、向前法、向后法等);调用“Curve Estimation”过程可完成二次方程、三次方程、指数方程、幂方程等曲线拟合的功能; 调用“Multinomial Logistie ”过程可完成应变量为二级计分或二类评定的Logistie回归的运算,将回归分析应用于D L 用户数据分析中, 主要可从以下几个方面考虑。首先, 可利用二元或多元的线性回归分析推断借书数量、时间、科目、还书的及时程度与用户年龄、工
14、作、学历等的关系; 可通过“Curve Estmation”过程判断借、还、预借、续借情况与性别、婚姻情况的关系;可用曲线模型拟合用户总数、借书总数、上站人数、下载字节数与时间序列的关系。相关分析任何事物的存在都不是孤立的, 而是相互联系、相互制约的。相关分析就是为了说明客观事物相互间关系的密切程度并用适当的统计指标表示来。值得注意的是, 事物之间相关, 并不一定是因果关系, 也可能仅是伴随关系。如果事物之间有因果关系, 则两者必然相关。相关分析不同于回归分析, 回归分析是把变量间的关系拟合成直线或曲线, 而相关分析是分析变量间关系的紧密程度。Spass中的相关分析是借助于“Statisrie
15、s”菜单的“Corelate”选项完成的。至于应用情况,因为都是分析变量间的关系, 故与上面所述类似,如分析借书数量、时间、科目、还书的及时程度与用户年龄、工作、学历等的关系,分析借、还、预借、续借情况与性别、婚姻情况的关系, 分析用户总数、借书总数、上站人数、下载字节数与时间序列的关系方差分析方差分析主要用于:两个或两个以上样本均数差别的显著性检验; 分离各有关因素并估计其对总变异的作用; 分析因素间的交互作用;方差齐性检验。造成研究数据呈现波动状的原因分两类: 不可控的随机因素和研究中施加的对结果形成影响的可控因素。方差分析是确定可控因素对研究结果影响力的大小。可对数据进行方差分析或协方差
16、分析。在方差分析中可按用户需要作单因素方差分析或多因素方差分析; 当观察因素中存在有很难或无法人为控制的因素时,可对其加以指定,以便进行协方差分析。多元统计分析和因子分析多元统计分析是研究多指标问题的统计分析,是一元统计分析中的常用统计方法在多元情况下的推广, 可同时处理多个指标。多元统计分析的常用方法有: 多元线性回归、判别分析、聚类分析和主成分分析。多元统计分析处理的是多指标的问题。由于指标太多且指标间经常具备一定的相关性, 故人们希望用较少的指标代替原来较多的指标, 但依然能反映原有的全部信息, 于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法聚类分析聚类分析是研究事物分类
17、的一种方法。这种方法的特点是只根据事物本身的特征分类, 按照它们在性质上的亲疏程度进行分类, 即将事物性质相近的归为一类,性质差异较大的归在不同的类。它不同于分类, 分类是先指定分类标准, 再按标准把事物分在相应的类目下。而聚类不会事先指定标准, 它先使各个事物自成一类, 然后考察各类间的差异程度, 再进行并类, 最后得出系统聚类谱系图。4 将spass应用于数字图书馆用户数据分析的意义更好地利用已有用户数据数字图书馆运行过程中, 每天都会产生大量的用户数据, 这些数据具有完整性、规范性、结构性等特点, 是非常宝贵的资源, 因此, 我们要充分利用。例如, 可通过这些数据进行用户行为分析, 包括
18、分析用户借阅习惯和浏览w eb 资源习惯, 预测其未来状况,从而为DL的决策提供依据。为DL的完善、优化提供有益参考由于用户数据反映用户使用数字图书馆的实际情况,所以对这些数据进行及时有效的分析, 是快速、准确地得到这些实际情况的前提。通过对已有DL用户数据的分析可得到以前的情况, 通过根据已有用户数据对将来数据进行预测可得到以后的情况, 这些都会为当前D L 的完善、优化以及新D L 系统的体系结构和馆藏结构的设计提供有益参使数字图书馆用户数据分析更科学在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,可见其影响之大和信誉之高。所以应用spass对D1 用户数据进行分析可为改善数字图书馆的服务提供更准确、更有价值、更可信赖的参考。促进DL用户数据分析的标准化因为spass是世界通用的统计分析工具, 因此, 使用spass对数字图书馆用户数据进行分析,可促进数字图书馆用户数据的收集利用及其方法、步骤的标准化,与国际接轨,也可促进各数字图书馆用户数据的共享和交流。