1、混合异构数据的清洗、存 储 、挖掘架构 选 型和 设计 策略提 纲 混合异构数据特点 混合异构数据分 类 混合异构 处 理流程 AdMaster混合异构数据平台架构 AdMaster数据 处 理流程 AdMaster混合异构数据分析 Q/A 混合异构数据特点 不同的数据 类 型 不同的数据量 级 不同的 访问 速度 不同的用 户类 型 不同的 访问 平台 不同的存 储设备 。 混合异构数据分 类数据内容数据特性数据 结 构使用 频 率数据 访问 量响 应时间在 线 数据短周期数据字段固定高度 结 构化、复 杂 、适合操作 计 算非常高( 热 数据) B、 MB级纳 秒、微秒、毫秒 级离 线 数
2、据长 周期(存档、 归纳 、 计 算 结 果)字段不固定结 构 简单一般(冷数据)GB、 TB、 PB级秒、分 钟 、小 时 、天 级数据采集Internet 非 结 构化数据结 构化数据 数据 预处 理清洗 集成 转换 归约 原始数据数据存储提 炼数据分析BatchPig HiveZookeeper(Tez)Online(HBase)Streaming(MapReduce) (Storm,S4)In-Memory Interactive(Spark)HPC MPI(OpenMPI)YARN Cluster Resource ManagementHDFSOS(操作系 统 )Mahout Flu
3、me Sqoop Oozie应 用服 务数据展示互 联 网广告 监测 全流程AdMaster混合异构数据平台架构Text Clustering Storm Data API Text Categorization MapReduce Open API API Service Data Mining System Distributed System Data Collect Text Analysis API Sentiment Analysis Spark Crawler Data Visualization App Layer JS/AS R Front-end Application Service ECharts