1、I 本 科 毕 业 论 文 混合多元回归 模型 比较 及 贝叶斯网络模型 改进 Comparisons of Combining Multivariate Regression Models and Improvement of Bayesian Network Model 姓 名: 学 号: 学 院:软件学院 系:软件工程 专 业:软件工程 年 级: 指导教师: 年 月 II 摘 要 预测回归 问题在数据挖掘、模式识别、机器学习中一直是一个活跃的研究领域。正确有效地 预测 未知 结果是回归预测 研究的中心。 由于每个目标数据集都有着各自不同的数据特点,单一的学习模型很难给出高效准确的回归表达
2、式和预测结果, 故 混合学习模型正试图解决此类问题, 成为当前数据挖掘和机器学习的研究热点之一。 本文首先介绍了已有的多 种 混合多元回归学习模型,包括 BEM 模型, GEM 模型, LR 及 LRC模型, PCR 模型和 M5P 模型 ,简要地指明各模型的特点及缺点。接下来介绍贝叶斯网络分类模型。由于 20世纪 80年代提出的贝叶斯网络 , 是一种不确定条件下的知识表达和推理工具,拥有其它数据挖掘工具所不具备的优势。利用贝叶斯网络对于事件或者属性间不确定性关系进行建模和推理,在商业智能、医学诊断、自然语言理解、故障诊断、启发式搜索、图像解释以及目标识别等领域产生了很多成功的应用。为了进一步
3、提高其性能并拓展其应用领域,本论文 提出 了 改进模型 基于贝叶斯网络的回归树学习模型。该方法主要思想是: 首先根据误差度选择最佳测试 ;接下来,减小噪声影响,得出因变量 y的回归估计函数;最终, 对离散属性和连续属性采取不同的处理方式 ,基于分而治之的原则构造决策树,以朴素贝叶斯取代叶节点。 随后,在 2 个 UCI 机器学习数据集上对以上模型进行实证对比验证。 实验 表明改进模型的性能良好,能有效减小预测误差。 关键词 : 混合多元回归 ; 学习模 型 ; 贝叶斯 III Abstract The problems related to prediction and regression
4、have been being an active research field in data mining, pattern recognition, machine learning. The point of prediction and regression is to predict unbeknown result effectively and correctly. Since each target data set has its own characteristics of the data, it is difficult for any single learning
5、 model to meet the anticipative performance in terms of accurate expression regression and estimated results. Those combining learning models that have been designed to solve such problems become one of hot spots in the research for data mining and machine learning. A variety of combining multiple r
6、egression learning models are to be introduced in the first part of this article, including the BEM model, GEM model, LR and LRC model, PCR model and M5P model, then briefly point out the characteristics and shortcomings of each model. Next, the Native Bayesian Network Classifier model is to be take
7、n into discussion. It is a kind of tool proposed in 1980s for knowledge representation and ratiocination under the conditions of uncertainty. And Bayesian network possesses its unique advantages that other data mining tools are not comparable. The modeling and reasoning for uncertain relationship be
8、tween events or among attributes based on the Bayesian network has been successfully applied in lots of fields, such as business intelligence, medical diagnosis, natural language understanding, fault diagnosis, heuristic search, image interpretation and target identification. In order to improve its
9、 performance and expand its application, an improved model-Bayesian-network based Regression Tree Learning Model has been deduced in this paper. The main idea of this model can be summarized as following: Firstly, choose the best test according to error; Next, reduce the impact of noises and educe t
10、he estimated regression function with represents the dependent variable y; At last, consider discrete attributes and continuous attributes with different manners respectively, build tree model by the divide-and-conquer method, and replace leaf nodes by applying Native Bayesian Network for Regression
11、. At last, experiment results on two UCI data sets show the effect and flexibility of each model. IV The results of experiments show that the improved model has a good performance, which can effectively reduce the prediction error. Keywords: Combining Multiple Regression; Learning Model; Bayesian. V
12、 目 录 第 1 章 绪论 . 1 1.1 研究背景及意义 . 1 1.2 研究情况及面临问题 . 2 1.2.1 研究情况 . 2 1.2.2 面临问题 . 5 1.3 文章主要内容 . 6 第 2 章 混合多元回归学习的几种模型 . 7 2.1 BEM 模型及 GEM 模型 . 7 2.2 主成分回归 . 8 2.3 岭估计模型 . 9 2.4 M5 模型树 . 11 第 3 章 贝叶斯网络回归树模型 .12 3.1 朴素贝叶斯分类器 . 12 3.2 贝叶斯网络分类器 . 12 3.3 将贝叶斯 网络 分类模型引入回归 . 14 第 4 章 实验分析 .17 4.1 数据描述 . 17
13、4.2 实验软件 . 17 4.2.1 SPSS .17 4.2.2 Weka .18 4.3 实验过程与结果 . 19 4.3.1 实验过程 .19 4.3.2 实验结果 .25 第 5 章 贝叶斯网络回归模型的应用 .27 5.1 上市公司财务危机分析 . 27 VI 5.1.1 样本及财务指标的选取 .27 5.1.2 实证分析 .28 5.1.3 结论 及建议 .29 5.2 成品油价格变动分析 . 31 5.2.1 数据选择 .31 5.2.2 实证分析 .31 5.2.3 结论 及 建议 .32 第 6 章 总结与展望 .35 6.1 总结 . 35 6.2 展望 . 35 参考文
14、献 .37 致谢语 .41 VII Content Chapter 1 Introduction .1 1.1 Research Background and Significance . 1 1.2 Research Situation and Current Problems . 2 1.2.1 Research Situation . 2 1.2.2 Current Problems. 5 1.3 Primary Coverage . 6 Chapter 2 Various Combining Multivariate Regression Learning Models .7 2.1
15、BEM Model 系数权重表示这些变量在相关关系中贡献大小 , 但预报仅为大致的估计值。 多元回归分析有着很广泛的应用,例如实验数据的一般处理、经验公式的求得、因素分析、产品质量的控制、气象及地震预报、自动控制中数学模型的制定等。因此,回归分析是模式识别、数据挖掘和经验学习等研究的核心问题之一。 在进行多元回归分析时,由于每个目标数据集都有着各自不同的数据特点,单一的学习模型很难给出高效准确的回归表达式和预测结果,混合学习模型正试图解决此类问题,以完善模型预测能力。混合学习模型的预测追求的总体目标是形成一个改进的分析器。 混合一组学习模型来改善分类和回归估计已经是机器学习和神经网络大量研究的
16、一个部分。一个学习模型可能是从决策 /回归树到神经网络的任何一种。然而,在选择学习模型的混合策略时,既需要决定选择哪些模型,又要很好的处理内部关联,确认每一个单一变量的贡献值。考虑到上述问题,了解已有的方法和这些 方法局限性、并试图给予改进是十分必要的。 1.1 研究背景及意义 半个世纪 ,随着 计算机和网络技术迅猛发展,在支配人类社会的三大要素 (能源、材料和信息 )中,信息越来越显示出其重要性和支配力,它将人类社会由工业化时代推向信息化时代。活动范围扩展,生活节奏加快,技术 不断 进步,人们能够以更快速、更容易、更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。 随着 利用
17、信息技术收集数据的能力大幅 提高, 人们深刻地认识到“谁最先从外部世界获得有用的信息并加以利用,谁就有可能成为赢家”。存储在计算机系统中的各种各样的 数据都是宝贵的信息资源,其中有可能蕴藏着许多有用的知识,这些信息或知识,作为创新的原动力,将可能提供或预示无限的商机、关键性的技术改进、乃至重要的科学发现,从而使商家长期持续地保持竞争优势 并 产生显著的经济、社会效益。但是,面对这极度膨胀的数据信息量,人们受到“信息爆炸”、“混沌信息空间 (Information Chaotic Space)”和“数据过剩 (Data Glut)”的巨大压力 ,又 由于人混合多元回归模型比较及贝叶斯网络模型改进
18、 2 们目前所用工具的局限性而无法将其挖掘出来。因此,如何对数据与信息进行快速有效地分析、加工、提炼 , 获得实际领域中可利 用的、有价值的信息和知识,提高商务管理、生产控制、市场分析和科学研究等方面的效率,成为计算机研究人员面临的具有挑战性的任务 ,也成为计算机、管理和信息技术领域的重要研究课题。 近年来,数据挖掘 已经成为 集数据库、人工智能、机器学习、神经网络、统计学、模式识 别、知识库系统、知识获取、信息提取、并行计算等方面的一个交叉性 研究领域。人们研究出多种用于知识发现和数据挖掘的方法和技术。主要分为基于统计的方法、基于机器学习的方法、基于数学的方法。 预测回归 问题在数据挖掘、模
19、式识别、机器学习中一直是一个活跃的研究领域。正确有效地 预测 未知 结果是回归预测 研究的中心。 由于每个目标数据集都有着各自不同的数据特点,单一的学习模型很难给出高效准确的回归表达式和预测结果, 故 混合学习模型正试图解决此类问题, 成为当前数据挖掘和机器学习的研究热点之一。 1.2 研究情况及面临问题 1.2.1 研究情况 1.国内外对混合学习模型的研究情况 从广义上来讲,混合学习模型甚至 可以上溯到 1972 年诺贝尔物理奖获得者 Cooper 及其同事 在 八十年代中后期在 Nestor 系统中的工作 。 1993 年, Perrone 和 Cooper 证明,在将神经网络集成用于回归
20、估计时 ,如果采用简单平均,且各网络的误差是期望为 0 且互相独立的随机变量,则集成的泛化误差为各网络泛化误差平均值的 1/N,其中 N 为集成中网络的数目 ,称为 BEM 模型。 如果采用加权平均,通过适当选取各网络的权值,能够得到比采用简单平均法更好的泛化能力 , GEM 模型。 20 世纪 80 年代以来,研究人员在该领域所取得 的成果以树形回归模型最具代表性 .Breiman 等于 1984 年提出 CART 算法 1,基于预测误差度递归地对连续变量进行局部的二分离散化,形成类似决策树的回归模型。 Dougherty 等 2以 MDL 标准为停止标准,基 于信息嫡对连续变量进行全局的离散化。 Quinlancl 提出的 M5 算法以线性回归函数取代 C4.5 中的子树,可以分段线性地逼近任何未知变量分布。 岭回归 (Ridge Regression)是 A.E.Hear 首先提出的,后与 Kennard 合作,对该方法进行了改进 .岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重共线性时,它可以提供一个有偏估计量,这个估计量虽有微小偏差,但它的精度却能大大高于无偏估计 。 目前对岭估计的研究成果最为丰富,但遗留的问题也颇多 。