大数据基础技术概述 日期:2014年6月 杭州华三通信技术有限公司 夏飞 03621 2 大数据基础技术概述 l 大数据处理的基本流程 l 大数据关键技术 l Hadoop介绍 l 流计算介绍 l 图计算介绍 l NoSQL介绍 l 大数据面临的其他问题 3 大数据处理的基本流程 整个大数据的处理流 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 行抽取和集成,结果 按照一定的标准进行 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析 , 从中提取有益的知 识并利用恰当的方式 将结果展现给终端用 户。具体来说,可以 分为数据抽取与集 成、数据分析以及数 据解释。 4 数据抽取与集成 l 大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁 杂。这种复杂的数据环境给大数据的处理带来极大的挑战。 l 要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实 体,经过关联和聚合之后采用统一定义的结构来存储这些数据。 l 在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。 l 现有的数据抽取与集成方式可以大致分为以下四种