1、xxx大数据库中心数据库投资商和企业数据采集处理项目项目编号:I5300000000617001206技术方案xxx有限公司 二一七年六月XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案2目 录1 引言 .31.1 项目背景 .31.2 项目目标 .31.3 建设原则 .31.4 参考规范 .41.5 名词解释 .52 云数据采集中心 .72.1 需求概述 .72.2 总体设计 .72.3 核 心 技 术 及 功 能 .103 大数据计算平台 .343.1 需求概述 .343.2 总体设计 .343.3 数据模型设计 .354 数 据 运 营 .384.1 数据挖掘分析 .3
2、84.2 数据分析处理的主要工作 .384.3 数据分析团队组织和管理 .395 安全设计 .426 风险分析 .467 部署方案 .478 实 施 计 划 .489 技 术 规 格 偏 离 表 .4910 售 后 服 务 承 诺 .5211 关 于 运 行 维 护 的 承 诺 .5512 保 密 措 施 及 承 诺 .5613 培 训 计 划 .58XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案31 引言1.1 项目背景XXX 大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项
3、目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到 XX 投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法 ,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。1.2 项目目标 制定招商大数据运营规范及管理办法。 制定招商大数据相关元数据标准,
4、完成相关数据的采集、整理与存储。 根据业务需求,研发招商大数据招商业务分析模型,并投入应用。 根据运营规范及管理办法的要求持续开展数据运营工作。1.3 建设原则基于本项目的建设要求,本项目将遵循以下建设原则:XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案4 前瞻性和 高 标 准 整 个 项 目 要 按 照 企 业 对 大 数 据 应 用 的 需 要 的 高 要 求 和 高 标 准 建 设 ,参 考 行 业 标 杆 应 用 , 建 立 满 足 需 求 , 面 向 未 来 的 目 标 , 整 个 项 目 具 有 一 定 前 瞻 性 。 经济性和实 用 性 整 个 项 目 以 现
5、 有 需 求 为 基 础 , 充 分 考 虑 未 来 发 展 的 需 要 来 确 定系 统 的 架 构 , 既 要 降 低 系 统 的 初 期 投 入 , 又 能 满 足 服 务 对 象 的 需 求 , 同 时 系 统 设计 应 充 分 考 虑 对 已 有 投 资 的 保 护 , 对 已 建 立 的 数 据 中 心 、 基 础 平 台 、 应 用软件应提供完备的整合方案。 先进性和成熟性 为 了 确 保 项 目 具 有 较 长 的 生 命 周 期 , 应 充 分 考 虑 到 管 理 创 新 、技 术 发 展 需 要 , 按 照 先 进 的 建 设 理 念 , 选 择 先 进 的 技 术 架 构
6、 和 成 熟 技 术 , 满 足 业务需求。 高性能和安全性 规 范 地 进 行 系 统 建 设 和 开 发 , 提 供 合 理 且 经 济 有 效 的 应 急 方 案 ,确 保 系 统 的 稳 定 , 向 各 类 服 务 对 象 提 供 可 靠 的 服 务 。 具 有 安 全 性 , 在 系 统 遭 到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。1.4 参考规范 GB/T 20269-2006 信息安全技术信息系统安全管理要求 GB/T 20984-2007 信息安全技术信息安全风险评估规范 GB/T 22239-2008 信息安全技术信息系统安全等级保护基本要求 GB/T 222
7、40-2008 信息安全技术信息系统安全等级保护定级指南 GA/T 388-2002B 计算机信息系统安全等级保护管理要求XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案5 GB/T 8567 -1988 计算机软件产品开发文件编制指 GB/T 11457-1995 软件工程术语 GB/T 11457-2006 信息技术 软件工程术语 GB/T 16260.1-2006 软件工程 产品质量 第 1 部 分 :质 量 模 型 GB/T 16260.2-2006 软件工程 产品质量 第 2 部 分 :外 部 度 量 GB/T 16260.3-2006 软件工程 产品质量 第 3
8、部 分 :内 部 度 量 GB/T 16260.4-2006 软件工程 产品质量 第 4 部 分 :使 用 质 量 的 度 量 GB/T 14394-2008 计算机软件可靠性和可维护性管理 GB/T 17544-1998 信息技术 软件包 质量要求和测试1.5 名词解释 S2DFS: 简单存储分布式文件系统 ( Simple Storage Distributed File System) D2B:分 布 式 数 据 库 ( Distributed Database) JSS: 作 业 调 度 服 务 ( Job Scheduler Service) DCS:数据计算服务(Data Comp
9、uter Service)XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案6 MPS:消息处理服务(Message Process Service) SDS: 流 数 据 处 理 服 务 ( Stream Data Service) DMQ:分布式消息队列(Distributed M essage Queue) JGS: 作 业 生 成 服 务 ( Job Generation Service) ACS: 自 动 清 理 服 务 进 程 ( Automatic Cleaning Services) HTTP:超文本传输协定(HyperText Transfer Protoco
10、l) SMB: 服 务 器 信 息 块 协 议 ( Server Message Block)XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案72 云数据采集中心2.1 需求概述根据规 划 , 云 数 据 采 集 中 心 的 建 立 至 少 满 足 1 至 2 年内的 数据存储和计算规模,需要满足: 数据采集范围包括但不限于世界 500 强、全国 500 强、行业 20 强企业相关数据。 总数据容量至少达到 30T。2.2 总体设计整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。硬件资源层主要指实体硬件 设备, 包括用来存储 数据的光纤阵列柜和存储服 务器,
11、 用来作统计、 分析以及搜索用的 计算服务器, 用来部署分布式消息 ( DMQ)/WEB/APP 软件的 WEB 及消息服务器,用来部署用 PostgreSQL 关系数据库软件的应用数据库服务器, 用来部署作业调度服务进程 ( JSS) 的作业调度服务器。 作为数据通信用的全千兆三层交换机等 。 其中光纤阵列柜主要用来存储统计分 析后的粗颗粒度数据。 存储服务器用来部署分布式文件系统和分布式数据库, 同 时 存储非结构化和结构化 (台标图片, 电商图片等等) 和结构化数据 (行为数据, 索引数据 , log 数据, 清理后的细颗粒度数据等等) 。 计算服务器主要用来完成数 据 的 清 理 、
12、统 计 、 搜 索 等 计 算 任 务 。 为 了 节 省 成 本 和 减 少 通 信 代 价 , 建 议 存 储服 务器和计算服务器合二为一, 所以该服务器 同时具有计算和存储数据的功能 , 前 期 也 可以 考 虑 把 作 业 调 度 服 务 进 程 ( JSS) 进 程 部 署 在 存 储 /计 算 服 务 器 上 。 由 于 云数据采集中心 需要面对多种宽带用户( 电 信、移动、联通,所以,数 据中心 的对外的网络需要直连上电信、 移动、 联通三家公司的网络, 保证 以上三家公司间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体XXX 大数
13、据库中心数据库投资商和企业数据采集处理项目 -技术方案8部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数 据库(D2B )” 、“分布式消息服务( DMQ)”“ 作业调度服务进程( JSS)、数 据计算服务进程(DCS)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的 64 位操作系统 CentOS 6.5(也可以选择 RHEL 6.5 x64);其核心软 件或者进程有:分布式文件系统(S2DFS )、分布式数据库(D2B )、作业调度服 务进程(JSS )、数据计算服务进程( DCS)、作业生成服务进程(JGS )、消息处 理服务进程(MPS)、流数据处理进程
14、(SDS)等等。WEB 及应用服务器软件 Apache&Tomcat,消息队列软件分布式消息( DMQ)。还要实现整个云数据采集 中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及 UI 表达层,功能实现需要基于 软件平台层的支撑 , 后期设计和实施的主体 。 该层的主要功 能 应用有: 数据采集应 用 、 数 据 统 计应 用 、 云 数 据 采 集 中 心 的 资 源 监 控 及 调 度 。通 过 公 共 数 据 网 ( 电 信 、 联 通 、 移 动 ) 和 HTTP 协 议 , 把 采 集 的 海 量 文 本、 图片数据以及用户 行为数据存储在 云数据采集中心 里,
15、以供后期分析计算 用 。 XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案9云数据采集中心整体架构图云数据采集中心网络结构图XXX 大数据库中心数据库投资商和企业数据采集处理项目 -技术方案102.3 核 心 技 术 及 功 能2.3.1 分布式文件存储技术( 1) 传统存储技术面临的问题: 构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。 文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、 文件系统难以扩展,容易形成瓶颈。 扩展性困难:技术存在瓶颈( Scale-up 架构决定的 、扩展成 本无法 控制。 可 用 性 问 题 : 潜 在 的 单 点 故 障
16、,数 据 恢 复 困 难 , 代 价 高 。 应用目标差异:主要面临运营商、金融行业的 OLTP 应用、很少针 对海量的流数据,或者非结构化数据进行设计和优化。 异 构 设 备 繁 杂 : 不 同 时 期 、 不 同 公 司 、 不 同 操 作 系 统 的 异 构 设 备 纷 繁复杂,无法整合,资源利用率极低。分 布 式 文 件 系 统 主 要 为 解 决 以 上 问 题 而 出 现 的 一 种 新 型 大 规 模 数 据 存 储 技 术架构。 主要为非结构化数据 (视频/文件/文档/ 图像/音频等非结构化 数据) 提 供海量的存储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用 x86 部件之上的高可用、 高可靠、 高可扩 展的新