1、大数据研究综述陶雪娇,胡晓峰,刘洋(国防大学信息作战与指挥训练教研部,北京 100091)研究机构 Gartne:的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的赞据焦合。数据挖掘的焦点集中在寻求数据挖掘过程中的可视化方法,使知识发现过程能够被用户理解,便于在知识发现过程中的人机交互;研究
2、在网络环境卜的数据挖掘技术,特别是在 Internet 上建立数据挖掘和知识发现(DMKD)服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化或半结构化数据的挖掘,如多媒体数据、文本数据和图像数据等。5.1 数据量的成倍增长挑战数据存储能力大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好的系统可用性,小能有效存储视频、音频等非结构化和半结构化的数据。目前,数据存储能力的增长远远赶小上数据的增长,设计最合理的分层存储架构成为信息系统的关键。5.2 数据类型的多样性挑战数据挖掘能力数据类型的多样化,对传
3、统的数据分析平台发出了挑战。从数据库的观点看,挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模的小断增大,算法的效率逐渐成为数据分析流程的瓶颈。要想彻底改变被动局面,需要对现有架构、组织体系、资源配置和权力结构进行重组。5.3 对大数据的处理速度挑战数据处理的时效性随着数据规模的小断增大,分析处理的时间相应地越来越长,而大数据条件对信息处理的时效性要求越来越高。传统的数据挖掘技术在数据维度和规模增大时,需要的资源呈指数增长,面对 PB 级以上的海量数据,N1ogN 甚至线性复杂度的算法都难以接受,处理大
4、数据需要简单有效的人工智能算法和新的问题求解方法。5.4 数据跨越组织边界传播挑战信息安全随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,不仅是没有价值的数据大量出现,保密数据、隐私数据也成倍增长,国家安全、知识产权、个人信息等等都面临着前所未有的安全挑战。大数据时代,犯罪分子获取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全性以及数据的多副本与容灾机制提出了更高的要求。要想应对瞬息万变的安全问题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安全漏洞是保证信息安全的重要环节。5.5 大数据时代的到来挑战人才资源从大数据中获取价值至少需要
5、三类关键人才队伍:一是进行大数据分析的资深分析型人才;二是精通如何申请、使用大数据分析的管理者和分析家;三是实现大数据的技术支持人才。此外,由于大数据涵盖内容广泛,所需的高端专业人才小仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和统计学家、社会网络学家和社会行为心理学家等。可以预测,在未来几年,资深数据分析人才短缺问题将越来越突显。同时,需要具有前瞻性思维的实干型领导者,能够基于从大数据中获得的见解和分析,制定相应策略并贯彻执行。大数据分析与处理方法分析孔志文(广东省民政职业技术学校,广州 510310)二、大数据分析的基本方面大数据分析可以划分为五个基本方而。一是具有预
6、测性分析能力。分析员可以通过数据挖掘来更好地理解数据,而预测性分析是分析员在数据挖掘的基础上结合可视化分析得到的结果做出一些预测性的判断。二是具有数据质量和数据管理能力。数据管理和数据质量是数据分析的重点,是应用在管理方而的最佳实践,通过数据的标准化流程和工具,可以达到一个预先设定好的高质量的分析结果。三是具有可视化分析能力。可视化是服务于分析专家和使用用户的,数据可视化是数据分析的基木要求,它可以通过屏幕显示器直观地展示数据,提供给使用者,还可以让数据自己说话,让使用者听到结果。四是具有数据挖掘算法。可视化是给数据专家和使用用户提供的,数据挖掘是给机器使用的,通过集群、分割、孤立点分析等算法
7、,深入数据内部,挖掘使用价值,数据挖掘算法不仅要处理大量的大数据,也要保持处理大数据的运行速度。五是具有语义引擎。语义引擎能从“文档”中只能提取信息,解决了非结构化数据多样性带来的数据分析困扰,通过语义引擎,能解析、提取、分析数据,完成使用者所需要的信息提取。三、大数据处理方法1.大数据处理流程大数据整个处理流程可概括为四步。一是大数据采集过程。用户端数据通过多个数据库来接收,用户可以通过这些数据进行简单的查询和处理,在大数据采集过程中,可能有大量的用户来进行访问和操作,并发访问和使用量高,有时可峰值可达上百万,需要采集端部署大量的数据库才能支持止常运行。二是进行大数据统计和分析过程。统计和分
8、析是通过对分布式计算集群内存储的数据进行分析和分类汇总,通过大数据处理方法,以满足使用者需求,统计与分析主要特点和挑战是分析所涉及的数据量大,极大地占用系统资源。三是大数据导入和预处理过程。因为采集端木身有很多数据库,在统计和分析数据时,如果对这些海量数据进行有效分析,还应该把来自各个前端数据导入集中的大型分布式数据库,也可以导入分布式存储集群,导入后在集群基础上再进行简单的清洗和预处理工作,导入和预处理环节主要特点是导入数据量大,每秒导入量经常达到几百兆,有时会达到千兆级别。四是大数据挖掘过程。数据挖掘与统计分析过程不同的是数据挖掘没有预先设定好的主题,主要在依据现有的数据进行计算,从而实现
9、一些高级别数据分析的需求,达到预测效果。2.大数据处理技术(1) Hadoop 架构。Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 具有可靠性,能维护多个工作数据副木,可以对存储失败的节点重新分布处理。它具有高效性,通过并行处理加快处理速度。具有可伸缩性,能够处理 PB 级数据。 Hadoop 架构的关键点是借助大量 PC 构成一个 PC 群难以实现对数据的处理。处理数据时,现分析数据,后结合分配的相应电脑处理数据,最后整合数据处理结果。浅谈数据挖掘技术及其应用舒正渝1.西北师范大学数信学院计算机系,甘肃兰州 730070; 2.兰州理工中等专业学校,甘肃兰州 73
10、0050)摘要:科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。数据库管理系统的应用领域涉及到了各行各业,但目前所能做到的只是对数据库中已有的数据进行存储、查询、统计等功能,通过这些数据获得的信息量仅占整个数据库信息量的一小部分,如何才能从中提取有价值的知识,进一步提高信息量利用率,因此需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:数据挖掘与知识发现的理论与技术研究。数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。2 数据挖掘的定义数据挖掘(Data
11、Mining),又称数据库中的知识发现(Knowledge Discovery in Database,简称 KDD),比较公认的定义是由 U. M. Fayyad 等人提出的:数据挖掘就是从大量的、小完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先小知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns) 等形式。数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。3 数据挖掘的过程KDD 的整个过程包括在
12、指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。整个知识发现的主要步骤有以下几点。3. 1 目标定义阶段要求定义出明确的数据挖掘目标。目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的算法。3. 2 数据准备阶段数据准备在整个数据挖掘过程中占的比例最大,通常达到 60%左右。这个阶段又
13、可以进一步划分成三个子步骤:数据选择(DataSelection),数据预处理(Data Processing)和数据变换(Data Transformation)。数据选择主要指从已存在的数据库或数据仓库中提取相关数据,形成目标数据(Target Data)。数据预处理对提取的数据进行处理,使之符合数据挖掘的要求。数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。3. 3 数据挖掘阶段这一阶段进行实际的挖掘工作。首先是算法规划,即决定采用何种类型的数据挖掘方法。然后,针对该挖掘方法选择一种算法。完成了上述的准备工作后,就可以运行数据挖掘
14、算法模块了。这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。3. 4 结果解释和评估阶段根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出来。对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于小能满足用户要求的模式,则需要退回到上一阶段。另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式。4 数据挖掘的研究方向目前研究主要从以卜几个方面开展:1)针对小同的数据挖掘任务开发专用的数据挖掘系统。一个功能很强的数据挖掘系统要能够处理各种类型的数据是小现实的,
15、应当根据特定类型数据的挖掘任务构造专用的数据挖掘系统,如关系数据库挖掘,空问数据库挖掘等。2)高效率的挖掘算法。数据挖掘算法必须是高效的,即算法的运行时问必须是可预测的和可接受的,带有指数甚至是中阶多项式的算法,没有实际使用价值。3)提高数据挖掘结果的有效性、确定性和可表达性。对已发现的知识应能准确地描述数据库中的内容,并能用于实际领域。对有缺陷的数据应当根据小确定性度量,以近似规律或定量规则形式表示出来。还应能很好地处理和抑制噪声数据和小希望的数据。4)数据挖掘结果的可视化。数据挖掘任务由非领域专家指定,所以希望最后发现的知识用用户理解的方式表达出来。5)多抽象层上的交互式数据挖掘。交互式数
16、据挖掘允许用户交互地精炼数据挖掘需求,动态改变数据焦点,逐步深化数据挖掘过程,从小同角度小同抽象层次上灵活地观察数据和挖掘结果。6)多源数据挖掘。计算)L 网络把许多数据源联接在一起,形成巨大的分布式异构数据库。小同来源数据的格式和语义小统一,数据挖掘系统应当能够帮助用户揭示异构数据库的高级数据规律。今后特别重视把数据挖掘技术与工 nternet 技术及 weU 技术紧密结合起来,开发出基于工 nternet 和 WeU 的数据挖掘软件工具。 7)数据挖掘的安全性和保密性。加强数据的安全性和保密性,防比侵犯别人隐私和泄漏敏感信息。8)实现与现有数据库系统或数据仓库的无缝集成,进一步扩大数据挖掘
17、工具的应用范围和提高现有数据的利用率。5 数据挖掘的应用领域随着数据挖掘研究的小断深入,数据挖掘技术已逐渐成熟,它的应用也越来越广泛。从政府管理决策、商业经营、科学研究、司法、交通、传媒等各个领域,数据挖掘技术都有用武之地。数据挖掘技术、应用及发展趋势张春华 王阳(空军第二航空学院,长春 130022)2 KDD 与数据挖掘KDD (Knowledge Discovery In Database )知识发现是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。DM (Data Iv在每个分支集中重复建立树的下层结点和分支的过程国际上最早的、也是最有影响的决策树方法是 Quiu
18、lan 研究的 ID3 方法。在数据采掘和知识发现中应用的人工智能技术还有邻近搜索方法、集合论的粗集方法、规则推理、模糊逻辑、公式发现,等等。3. 2 数据挖掘的分析方法Dn系统利用的技术越多,得出的结果精确性就越高,从功能上可以将Dn的分析方法划分为以下四种:3. 2. 1 关联分析关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如APRIORI, STEM,AIS , DHP 等算法。关联分析的口的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的顾客在一次购买活动中购买商品 A 的同时购买商品 B,之
19、类的知识。关联分析就是生成所有具有用户指定的最小置信度和最小支持度的关联规则。3. 2. 2)字列模式分析序列模式分析和关联分析法相似,其口的也是为了采掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。运用序列模式分析销售记录,零售商则可以发现客户潜在的购物模式,例如客户在购买微波炉前常购买何种商品。3. 2. 3 分类分析设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它
20、数据库中的记录进行分类。3. 2. 4 聚类分析与分类分析法不同,聚类分析法的输入集是一组未标定的记录,也就是说此时输入的记录还没有进行任何分类。其口的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。此外还如下的有关方法:预测模型、数据库分段、联系分析、偏差检测、可视化等等。3. 3 数据挖掘的应用I技术旨在发现隐藏在大量数据之间的尚未被认识的知识,因此数据密集型领域是 I】的主要应用方向,这些行业有金融、教育、科学研究、医疗卫生、产品制造、市场营销、社会治安等等,很多期刊和会议文献都有介绍和分析,本文不在赘述。数据挖掘技术及其应用孙义明曾继东北京 2861-6 分箱
21、三、数据挖掘技术数据挖掘是指以提取隐含的定性关系为目的、利用先进商业软件工具对海量数据资料进行的计算机辅助分析。虽然普通的数据库访问方式也能获取与预期结果相符的信息,但数据挖掘技术更加注重对先前并不为分析人员所知的隐含模式和关系的发掘。通过用数学方法对入库信息进行系统筛选,数据挖掘有助于识别用其他方式很难发现的重要倾向和模式。1.节点分析节点分析的目的是确定完全不同的异体之间的关系,而仅从表面上看它们之间并没有明显的关联。节占指的早柑壮分举图中的分离点.存此图中. 一织数据可根据多种不同算法分成完全不同的类别。从根节点的划分(第一分离点) 开始,后面的每一节点都应用一种检测标准,这种方法一直延续下去,直到到达树状结构图末端的分离停止处,也就是到达终端节点。如果一切进展顺利,在这些终端节点就会发现,已成功分离出所关注的组成员。“A 级威胁”小组成员称, “在受关注类别中包括9 11劫机犯之一穆罕默德阿塔的名字。 ”