1、 格力大数据项目工作说明书北京西塔网络科技股份有限公司二零一六年一月格 力 大 数 据 项 目 工 作 说 明 书 (SOW)1 项目目标 .32 建设及服务内容 .42.1 需求调研及数据标准化 .42.2 大数据基础平台搭建 .42.3 数据采集 .42.4 分层存储设计 .52.5 数据加工处理 .52.6 数据分析挖掘 .52.7 内存数据库 .52.8 交互式探查分析 .62.9 数据可视化应用 .62.10 语音智能分析 .62.11 文本、视频、图片存储 .62.12 大数据平台运维监控 .62.13 大数据平台任务调度 .72.14 ETL 过程可视化 .72.15 培训工作
2、.73 建设方案 .84 时间进度与里程碑 .85 费用支付 .9格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 2 页6 需求变更过程 .96.1 变更依据 .96.2 变更请求处理流程 .97 双方责任 .108 项目组织架构 .129 假定条件 .12格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 3 页1 项目目标在珠海格力电器股份有限公司的范围内,分期实现格力工业大数据平台项目的数据集成、连接、处理、分析、挖掘等相关功能。本期项目包括设计、搭建大数据平台,接入商技一部、商技二部、计算机中心的销售订单等相关数据,实现设备故障诊断、故障预测、产品统计、实时查询
3、、营销支持、智能搜索等功能。故障诊断的业务目标:大数据平台处理、分析商用空调运行时采集回传的工况数据,及时、准确定位运行故障并给出大致原因,为维护部门维修空调设备和系统提供信息支撑,降低故障定位的时间、范围和工作量,缩短停机时长并提高客户满意度、忠诚度。故障预测的业务目标:大数据平台利用数据挖掘、机器学习技术,通过学习业已存在的设备故障数据、信息,尤其是发生故障的前兆数据,归纳故障发生的特点、规律知识,并利用流计算相关技术及时发现潜在的故障及风险,及时预警,减少停机的次数及停机时长。另外发现停机模式、规律可以进一步应用到产品设计、改进过程中。产品统计的业务目标:大数据平台利用集成的产品及销售数
4、据进行统计分析,用于分析产品的销售情况,客户情况,销售规律、特点及变化趋势,用于指导产品的个性化设计及产品的推广销售。实时查询的业务目标:大数据平台利用 New SQL 存储技术存放设备数据,提供特定编号设备、一段时间内工况信息的实时查询功能,用于业务人员分析、判断特定设备在查询时间范围内的工作状态,总结、发现业务规律。营销支持的业务目标:大数据平台利用集成的产品及销售数据进行分析,发现其中先后、重复购买及交叉购买情况和规律,提醒、推荐客户购买特定的产品和服务,提高产品和服务的销量。智能搜索的业务目标:格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 4 页大数据平台提供通过语音输
5、入完成产品及销售数据的查询、统计及分析的功能。2 建设及服务内容以下所有内容基于 1 月 19 日版本的需求文档。详见格力大数据需求说明1.0文档,建设内容为基于 Hadoop 生态系统构建大数据平台,内容包括商用空调、家用空调、销售等历史数据的入库,ETL 处理,数据仓库、离线计算、内存计算、实时计算、即席查询、可视化展示等内容。具体内容如下:2.1 需求调研及数据标准化包括功能商技一部、商技二部、销售、审计部门的需求调研、数据调研以及数据标准化。2.2 大数据基础平台搭建基于 Hadoop 搭建大数据平台,包括HDFS、MapReduce、HBase、Hive、Spark,MySql 集群
6、。使用 HDFS 存储原始数据,供离线分析挖掘;使用 Spark/MapReduce 执行离线任务;使用 HBase 做实时查询;使用 Hive/Spark SQL 做数据仓库;使用 MySql 集群存储分析结果书,供上层应用查询。2.3 数据采集大数据采集包括非结构化数据、结构化数据的采集,非结构化数据采用FlumeNG 采集,Oracle/SQLServer/MySQL 关系数据库中的结构化数据采用 Sqoop 收集。此外还有实时流数据采用分布式消息队列采集。Flume 收集非结构化数据,Flume 是一个高可用的,高可靠的,分布式的海量数据采集、聚合和传输的系统,Flume 支持定制各类
7、数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写入到 HDFS 中。Sqoop 收集结构化数据,Sqoop(发音:skup),主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql.)间进行数据的传递,可以将一个关系型数据库格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 5 页(例如 : MySQL ,Oracle ,Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。Sqoop,类似于其他 ETL 工具,使用元数据模型来判断数据类型并在数据从数据源转移到 Ha
8、doop 时确保类型安全的数据处理。Sqoop 专为大数据批量传输设计,能够分割数据集并创建 Hadoop 任务来处理每个区块。实时数据处理,通过采集层数据通过消息队列组件 Kafka 接入到 Spark Streaming 里,Spark Streaming 实时处理后把结果存到 Hbase 或 Mysql 等关系数据库中供用户查询。2.4 分层存储设计通过将给定文件、数据集或应用程序的必需数据特征对数据进行分层存储设计,满足不同的应用场景。提供数据利用率与使用效率。将常用数据存储在高速设备上,而不太常用的数据存储在低速设备上。在宏观上,数据可以在不同的设备之间进行数据复制迁移,分层保存。2
9、.5 数据加工处理对数据进行分析和加工。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。经过加工清洗后的数据根据不同的数据类型,选择不同数据存储方式,可以存入 HDFS 供离线挖掘,或者存储到实时性高的 MPP 数据库进行统计分析。2.6 数据分析挖掘大数据分析系统以机器学习、数据挖掘等作为核心技术,构建于大数据管理系统和云计算平台之上。其中,大数据管理系统提供数据的存储与查询功能,云计算平台提供分布式并行计算服务。通过分布式计算与统计分析服务器访问大数据系统,实现 KPI 与报表统计分析服务。采用 Spark MLlib 做为数据挖掘和机器学习框架, MLlib 是 Spark 的
10、标准机器学习框架 ,MLlib 相对于其他机器学习库包具有更加优异的性能或者更容易入门。MLlib 机器学习库具有完整的机器学习框架和各类别机器学习算法,满足各种场合的需求。Mllib 随着 Spark 版本一起发布和应用。本系统采用 MLlib 构建在 Hadoop之上对大数据进行挖掘处理,实现故障诊断、故障预测、配件库存优化等深度挖掘。格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 6 页2.7 内存数据库内存数据库是将全部数据驻留内存的分析型数据库系统,采用内存计算技术,从根本上解决了数据仓库由于磁盘 I/O 导致的性能瓶颈问题,具有性能高、成本低、灵活、可扩展等众多优良特
11、性,尤其适合做为大数据的计算引擎、分析引擎使用。把热点数据加载到内存数据库中,提供交互式探查分析、智能查询分析等功能。2.8 交互式探查分析基于内存数据库快速查询,使用明细数据,免去清洗、聚合过程,更快速地分析和揭露数据中蕴含的问题,直接由业务人员使用,免去提需求、澄清、确认沟通环节,快速实现分析意图,提高了发现和解决问题的效率使用时可由全部数据快速过滤出关注的部分数据进行分析;关注数据的特征可进一步由明细数据刻画、佐证;可按需保存分析场景、导出明细数据付诸解决。优异的用户体验,以客户体验为中心设计,侧重易理解(业务视角,选择、过滤、分析)、易用(平铺、图形操作)、去除干扰(功能隐藏)、快速响
12、应(内存计算)、增加趣味性(改分档数)。2.9 数据可视化应用提供通过实时查询、产品统计功能,不做个性化推送。2.10语音智能分析大数据平台提供语言智能分析,通过录入语言,将语言转换为文本,并对文本进行分词和语义分析,提交到大数据平台完成产品产品及销售数据的查询、统计及分析的功能。2.11文本、视频、图片存储大数据平台增加文本、音视频、图片等非结构化数据的存储。2.12大数据平台运维监控提供格力大数据平台管理、运维工具及说明,包括服务器和运维系统都正常运行,运维系统可以对集群所有物理机进行性能监控,包括但不限于以下指标:CPU 使用率、内存使用率、硬盘利用率、网络流量、IO 负载、系统负载均值
13、、格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 7 页ETL 监控、数据质量监控、等服务器性能指标进行监控。运维要考虑大数据平台的可扩展性,支持:1、 在线添加节点2、 服务扩展3、 组件的升级 4、 异常处理: 挂了的节点如何恢复,记录日志方便追踪2.13大数据平台任务调度任务调度系统能够对各类任务进行配置、启动、跟踪。同时,应并具备任务联动能力,即可以将多个任务通过流程组装成一个联合任务,各任务之间存在相互制约关系,任务调度管理能够根据各任务的执行状态、结果来自动的启动后续任务,任务间允许并发及串行两种模式。要求各任务的配置应当为可视化的配置。对于任务启动至少包括定时启动和
14、条件启动两种模式。同时允许管理员进行任务的手动执行。任务执行可设定优先级,比如按销售 技术 质量 售后(销售量大的 销售量小的 生产 检验来设定。2.14ETL 过程可视化ETL 尽量满足可配置性及可视化操作,如果甲方购买了第三方 ETL 可视化工具如 kettle、Dataflow 、Syncsoft 等工具,乙方应支持甲方做集成工作。2.15培训工作从格力大数据平台未来的使用及运行来看,北京西塔提供的培训将达到如下的目标: 完成知识的转移承建单位开发完成一个软件系统后,将通过培训工作实现知识的转移,不仅包括软件系统的使用方法,同样还包括业务理念、系统运行维护方法、技术开发方法等满足系统未来
15、业务拓展需要的各项技能与方法。 实现全员的应用应用系统的建设目标即要建设一个全员参与使用的系统,因此培训的目标之一,也是要使业务人员均可以熟练使用该系统,增强业务人员的知识储备,提高整个使格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 8 页用应用系统的业务人员素质。 保障系统的安全运行对格力大数据平台的技术管理人员进行技术培训,使其能掌握有关软件产品及系统的使用、维护、管理,达到能独立进行管理、故障处理、日常测试维护、个性化应用开发等工作目的,以保障北京西塔所提供的应用系统能够正常、安全地运行。通过以上培训使用户系统管理员能够独立完成平台的设置、管理、故障恢复、应急处理等,能够
16、进行日常的数据库备份及恢复操作、能够独立处理常见突发事件及操作员提出的常见操作问题。3 建设方案详见格力大数据项目技术方案.docx。4 时间进度与里程碑格力工业大数据平台建设。项目工期要求:总工期 10 个月分 3 个阶段:里程碑 阶段性成果与提交物 时间(月) 付款1.项目签约 人员进场 30%2.、基础平台搭建&业务模型设计数据调研报告、数据标准化文档需求规格说明书功能设计说明书2 20%3.业务需求开发 ETL、业务模型开发、大数据服务接口开发、大数据标准可视化系统开发、MPP 内存数据库、3 30%格 力 大 数 据 项 目 工 作 说 明 书 (SOW)第 9 页5 费用支付以合同为准。6 需求变更过程6.1 变更依据1. 变更请求 除特殊紧急情况,只处理书面变更请求。2. 变更标准 当工作说明书中建设内容所说明的工作项因某种原因(如实际业务变更、可实现性变更等)发生增加、减少或变更时,认为变更发生。3. 变更申请样式详见需求变更申请表.docx。6.2 变更请求处理流程 客户项目经理将书面变更请求提交项目经理 项目经理与技术经理或软件架构师研究可行性交互式探查分析、智能语音搜索4. 大数据管理系统 大数据运维监控系统大数据任务管理系统大数据安全管理系统2 10%5.项目终验 产品配置说明应用系统部署架构说明平台监控、维护说明3 10%