1、数据挖掘应用到云计算环境的有效性分析摘 要 云计算在当前的计算机技术发展中是热度很高的话题,对于它的具体定义描述,到目前还没有一个较为权威统一的标准。从它的结构构成来讲,它是一种新兴的共享基础架构和方法,它的开展基础是公开的标准和服务,围绕互联网为中心来提供相关服务,它在当前社会的大多数领域都有了广泛的应用和体现,涉及到诸多的领域,需要在具体应用时进行综合全面的把握,基于此,本文就在分析云计算开放环境和系统的关键研发基础上,对云计算模式下的数据挖掘平台原型建立进行了分析,阐述了平台在实际应用中的扩展性和通用性,可以给相关领域的研究学者提供参考作用。 【关键词】云计算 数据挖掘 应用 有效性 随
2、着社会发展的不断进步,对于数据挖掘系统的建立和研发工作也取得了一定的成效,虽然国内外研究学者已经研发出了多种形式的数据挖掘系统,但是都或多或少的存在着一些缺陷和不足,像价格成本高、复杂繁琐等。在新形势下,随着云计算模式的出现,它为大量数据的分析提供了一种快捷低价的应对方案,使数据挖掘平台的建立有了可行性的趋势,云计算从实质上来说,它是一种在计算机网络结构下的超级计算模式,具有存储能力强、计算能力可弹性明显等的特点,可以有效的实现大量数据挖掘的工作。 1 云计算的综述 云计算的实质是一种计算服务,它是由计算资源和软件以及其他各种信息资源共同构成的,它可以在网络技术的支持下,脱离空间的限制,使用计
3、算机或者是其他相关设备等来进行终端的访问。云计算中的“云”是一个并行和分布式的系统,它的构成是由互相牵连的虚拟计算机实现的,可以实现被动的部署,最后作为一个或多个统一计算资源来体现,它的服务形式是基于服务运营商和用户两者之间进行协商的服务等级协议,并在这个协议下提供服务。此外,从另一层面来说,它还是一个弹性空间很大的资源执行环境,关系到诸多的利益方,并对其提供可以进行计量的服务,笔者所讲的云属于是基础平台,可以以多种形式在不同的资源上进行执行。 2 数据挖掘技术 当前形势下数据挖掘技术已经得到了实际应用,主要涉及到关联规则、分类、聚类以及预测和序列模式。 2.1 关联规则 它分为两个类型,一是
4、 Apriori 算法;二是频繁模式增长算法。那么任何一种模式的发现都是在同一个交易数据库中的特定项目和其他项目之间的关系基础上。 2.2 分类 它是一种利用数学方法来完成的技术,包括线性规划、神经网络等。在进行分类的过程中在软件作用下可以掌握数据项分组的方法。 2.3 聚类 聚类技术也对类和类中的对象进行了阐述,在这种技术下,相同类型的数据可以规划到一起,并有明确的标注,便于查找应用。 2.4 预测 预测主要用于发现自变量之间及其和因变量之间的关系,那么实际案例中,可以把销售额作为自变量,利润为因变量,进而预测到未来的销售利润。 2.5 序列模式 它是一种在事件发生的时间顺序上相关的数据挖掘
5、技术,发现的模式主要用于各种不同数据之间关系的深层化分析研究。例如 2010 年,Kawuu W.Lin 等所提出的多任务频繁模式挖掘的策略。 3 云计算环境下的数据挖掘优势分析 在云计算环境下来进行数据的挖掘工作,这在当前形势发展下是具有重要作用的,这与云计算环境的特性是由很大关系的,那么在云计算环境下来分析数据挖掘工作的优势就可以从下三方面来阐述: (1)一般来说,数据挖掘是大量的,规模较大,需要从大量的数据中挖掘出理解的知识,这在互联网数据不断增长的形势下,对于其的挖掘任务远远超出了搜索任务,有很大的复杂性,这就导致了在进行挖掘的过程中,要具备良好的开发环境和应用环境,那么这种挖掘要求就
6、需要充分的应用到云计算环境。 (2)在云计算环境下,可以顺利的实现低成本分布式并行计算环境,基于此,就可以大大降低企业的数据处理成本,而且也摆脱了对高性能机器的依赖性。 (3)在云计算环境下,进行数据开挖活动时十分的便利,对底层有屏蔽作用。而且在并行化条件下,云计算还可以在原有设备的利用基础上进一步的提高对大规模数据的处理能力和速度,这样不仅确保了容错性,而且还起到了增加结点的作用。 4 云计算环境下数据挖掘平台的分析 4.1 账户管理子系统 账户管理的子系统一般是针对于管理用户对与平台相关的服务状况,进行的一个账户收支明细的详细记载,这个系统是平台的基础所在。从它的构成结构来看,它主要涉及到
7、四个方面的功能,即支出的明细、收入的明细、账户余额以及历史记录。这四个方面是相互作用,相互联系的,其中每一部分的作用是有区别的,支出明细主要是对用户所使用的平台中的付费服务和设施的明细账目进行详细合理的记录;收入的明细主要涉及到它的两项主要来源,一是用户在这个系统下提供平台的数据资源,二是以挖掘算法子系统提供给平台的先进算法的报酬明细;而账户的余额主要是支出和收入之间的差额;最后的历史记录是指对用户登录平台之后的所有操作行为进行记载,这样可以给后期的撤销操作提供条件。 4.2 数据管理的子系统 这个系统是针对于用户的数据资源管理来说的,涉及到用户自己的数据、采购的数据以及卖出的数据。这个子系统
8、是在云计算的 DaaS 服务模式基础上出现的,对于用户来说,可以在这个系统的作用下,通过平台来获得自己所需要的数据资源,并且也可以把自己所拥有数据提供给平台,需要注意的是,这个提供是有偿性的。它的功能作用主要包含三个方面,我的数据、采购数据、卖出数据。这三个数据各有各自的优势,我的数据,它较为清晰的表示了用户存放在平台上的全部数据名城;采购数据,它从平台采购数据,然后在系统的作用下对这些数据所进行存放的数据库名城按照列表的形式显示给用户;卖出数据,它是用户所卖出的平台数据的详细记录列表进行的显示。 4.3 挖掘算法管理子系统 这种系统主要是针对于管理数据挖掘子系统所需要的算法和模型来说的,并且
9、还可以协助完成数据挖掘子系统中的自定义功能的算法获取作用。从这种系统的结构构成来说,它包含有系统算法、算法历史记录以及自定义算法等的基本功能。这个功能之间是相互联系的作用,各有各自的特点,系统算法,它可以较为清晰明确的列出平台所拥有的挖掘算法和相关的介绍等;对于算法记录来说,它可以对用户所使用的全部算法进行合理的记录;自定义算法主要是指用户根据自身需求所创作出的算法,也可以是经过改进创新的算法。 4.4 服务器群 服务群的存在主要是对用户提供高效的平台访问、数据操作等的一系列服务。这种服务群所采用的虚拟技术以及具体的分布式技术会把平台所拥有的本地或者是异地服务器资源进行高效的利用,进而提供高质
10、量的服务。在这个平台的作用下,它可以把服务器直接的租用给客户,也可以是客户把自己所具有的闲置服务器已虚拟化等的技术来租用给平台,这样可以确保资源的高效配置,通常情况下,这个服务器群涉及到数据库服务器、数据挖掘服务器以及账户管理服务器等方面。 5 总结 现代科学技术的发展,使得云计算得到了显著的普及和应用。云计算自身具有独特的优势特点,它在大量数据挖掘方面具有明显的优势,而且随着它的应用领域不断延伸,人们在加大对其应用的同时,也给云计算环境下的数据开挖提供了很大的便利,而且国家也加大了这方面的政策支持力度,又为云计算环境下的数据开挖实效性注入新的活力。 参考文献 1石杰.云计算环境下的数据挖掘应
11、用J.微型机与应用,2015,34(05):13-15. 2黄章树,刘晴晴.基于云计算服务模式的数据挖掘应用平台的构建J.电信科学,2012, (01):53-57. 3邓蕾蕾,于航.基于云计算的数据挖掘研究及展望J.计算机与现代化,2012, (05):93-95. 4周晏,桑书娟.浅谈基于云计算的数据挖掘技术J.电脑知识与技术,2010,6(34):9681-9683. 5蔡兴旺,段梦博.云计算及其在数据挖掘上的应用研究J.电脑知识与技术,2010,6(22):6272-6274. 6肖云鹏,刘宴兵.云计算关键技术与应用展望J.数字通信,2010, (03):29-31+36. 作者单位 湖南劳动人事职业学院 湖南省长沙市 410126