1、1企业数据集市建设要点分析高并发、低延迟场景下,企业如何建设敏捷高效的数据集市2目 录一 、 数 据 集 市 的 发 展 态 势 .3二 、 数 据 集 市 与 数 据 仓 库 的 对 比 .5三 、 数 据 集 市 的 项 目 建 设 方 案 及 技 术 点 .6四 、 数 据 集 市 建 设 所 需 支 持 及 面 临 的 风 险 .9五 、 数 据 集 市 项 目 验 收 .113随 着 大 数 据 技 术 的 发 展 , 数 据 量 急 剧 增 长 , 数 据 的 分 析 挖 掘 工 作 也 变 得 越 来 越 重 要 。 在 这 背 后 ,数 据 仓 库 的 建 设 尤 为 重 要
2、, 通 过 数 仓 , 可 以 为 数 据 分 析 人 员 提 供 全 面 的 数 据 和 计 算 能 力 。数 据 仓 库 包 括 原 子 级 别 的 数 据 和 轻 度 汇 总 的 数 据 , 是 面 向 主 题 的 、 集 成 的 、 不 可 更 新 的 (稳 定性 )、 随 时 间 不 断 变 化 ( 不 同 时 间 ) 的 数 据 集 合 , 用 以 支 持 经 营 管 理 中 的 决 策 制 定 过 程 。 但 是 数 据仓 库 在 高 并 发 、 快 速 响 应 的 场 景 下 具 有 很 大 的 局 限 性 , 无 法 满 足 海 量 投 资 者 数 据 查 询 服 务 需 求
3、 。数 据 集 市 , 也 叫 数 据 市 场 , 是 企 业 级 数 据 仓 库 的 一 个 子 集 , 是 为 满 足 特 定 的 部 门 或 者 用 户 的 需 求 ,只 面 向 某 个 特 定 的 主 题 , 按 照 多 维 的 方 式 进 行 存 储 , 包 括 定 义 维 度 、 需 要 计 算 的 指 标 、 维 度 的 层次 等 , 生 成 面 向 决 策 分 析 需 求 的 数 据 立 方 体 , 提 升 数 据 查 询 的 效 率 。本 文 围 绕 着 数 据 集 市 的 需 求 、 架 构 、 方 案 等 方 面 进 行 了 问 题 的 讨 论 , 对 于 大 家 了 解
4、 和 应 用 数 据集 市 非 常 具 有 参 考 价 值 。一 、 数 据 集 市 的 发 展 态 势Q1: 当 前 , 金 融 行 业 中 在 什 么 场 景 下 需 要 建 设 数 据 集 市 ? 是 否 该 启 动 数 据 集 市 建 设 ? 数 据 集 市 的建 设 是 由 哪 些 因 素 触 发 的 ?A1-1:数 据 集 市 (Data Mart) , 也 叫 数 据 市 场 , 是 企 业 级 数 据 仓 库 的 一 个 子 集 , 是 为 满 足 特 定 的 部 门 或者 用 户 的 需 求 , 只 面 向 某 个 特 定 的 主 题 , 数 据 集 市 存 储 为 特 定
5、用 户 预 先 计 算 好 的 数 据 , 从 而 满 足用 户 对 性 能 的 需 求 。 数 据 集 市 可 以 在 一 定 程 度 上 缓 解 访 问 数 据 仓 库 的 瓶 颈 。数 仓 解 决 海 量 数 据 统 计 分 析 , 低 用 户 并 发 , 大 量 计 算 。数 据 集 市 低 延 时 和 高 并 发 查 询 的 情 况 下 具 备 足 够 的 支 撑 能 力 , 可 以 724 对 外 提 供 数 据 服 务 ,且 不 影 响 原 有 数 据 仓 库 统 计 分 析 应 用 的 正 常 运 行 。 大 量 生 产 数 据 的 预 处 理 在 数 仓 进 行 , 数 据
6、集 市接 收 数 仓 预 处 理 后 的 数 据 。4数 据 集 市 是 对 数 仓 的 补 充 , 灵 活 、 快 速 响 应 业 务 , 支 持 用 户 部 门 自 行 定 制 数 据 进 行 统 计 分 析 , 支持 高 并 发 、 性 价 比 较 高 。A1-2:当 用 户 对 大 量 数 据 的 实 时 性 要 求 非 常 迫 切 , 而 数 据 仓 库 无 法 满 足 时 , 就 需 要 有 针 对 性 的 对 这 些 数据 进 行 处 理 , 提 升 存 储 和 计 算 的 效 率 , 这 就 需 要 建 立 数 据 集 市 , 通 过 对 数 据 的 预 处 理 , 提 升 数
7、 据查 询 处 理 效 率 。Q2: 企 业 建 设 数 据 集 市 的 动 力 来 自 哪 里 ? 建 设 数 据 集 市 对 金 融 行 业 客 户 有 何 现 实 意 义 ?A2:数 据 集 市 是 数 据 仓 库 的 一 个 重 要 补 充 , 满 足 客 户 对 数 据 的 即 时 性 要 求 ; 传 统 数 仓 往 往 比 较 重 存 储 ,且 为 了 保 持 数 据 完 整 性 , 而 严 格 按 照 范 式 要 求 保 存 数 据 , 从 而 导 致 计 算 量 很 大 , 时 效 性 较 低 。 建立 数 据 集 市 , 有 助 于 进 一 步 发 挥 数 据 价 值 , 因
8、 其 面 向 主 题 , 可 以 对 数 据 做 各 种 处 理 , 从 而 在 设 计上 提 升 数 据 存 储 和 查 询 的 效 率 。Q3: 目 前 金 融 行 业 中 , 规 划 或 者 已 经 建 设 了 数 据 集 市 项 目 的 企 业 多 吗 ? 数 据 集 市 在 金 融 行 业 中 发展 的 态 势 如 何 ?A3-1:数 据 集 市 适 合 行 业 内 拥 有 海 量 数 据 的 公 司 , 需 对 特 定 领 域 服 务 , 通 过 互 联 网 , 对 公 众 、 监 管 机 构提 供 数 据 服 务 , 好 处 是 快 速 灵 活 、 降 低 原 有 数 据 仓 库
9、 成 本 。A3-2:金 融 行 业 积 累 了 非 常 多 的 数 据 , 数 据 质 量 也 很 高 , 随 着 金 融 业 与 技 术 的 紧 密 结 合 , 面 向 某 一 领 域的 数 据 需 求 变 得 越 来 越 强 烈 , 比 如 行 情 数 据 , 很 多 应 用 都 需 要 , 这 时 如 果 形 成 行 情 的 数 据 集 市 ,提 供 数 据 服 务 , 不 仅 避 免 重 复 建 设 , 而 且 有 利 于 数 据 的 统 一 管 理 。Q4: 数 据 集 市 项 目 的 直 接 用 户 和 间 接 用 户 是 哪 些 方 面 ? 数 据 集 市 会 为 用 户 带
10、来 哪 些 好 处 ?5A4-1:直 接 用 户 是 各 业 务 部 门 、 各 业 务 系 统 , 数 仓 不 直 接 为 各 业 务 系 统 直 接 提 供 数 据 服 务 , 通 过 数 据 集市 提 供 ; 间 接 用 户 是 各 业 务 系 统 的 用 户 , 如 通 过 互 联 网 办 理 业 务 的 投 资 者 用 户 。 直 接 用 户 是 可 以定 制 化 数 据 服 务 , 方 便 、 快 捷 , 间 接 用 户 是 快 速 响 应 、 更 好 用 户 体 验 、 高 性 能 和 可 用 性 。A4-2:直 接 用 户 是 业 务 数 据 分 析 人 员 、 业 务 系 统
11、 负 责 人 员 , 对 数 据 有 强 烈 的 需 求 和 敏 锐 的 嗅 觉 , 能 够 将数 据 价 值 抽 象 出 来 ; 间 接 用 户 就 是 一 线 业 务 人 员 , 可 以 直 接 获 取 该 数 据 价 值 , 对 用 户 及 时 反 馈 。数 据 集 市 提 升 了 数 据 交 互 的 时 间 , 使 数 据 的 使 用 变 得 流 畅 。二 、 数 据 集 市 与 数 据 仓 库 的 对 比Q1: 数 据 集 市 的 出 现 , 会 使 数 据 仓 库 消 亡 吗 ?A1-1:不 会 的 , 两 者 在 概 念 上 并 不 完 全 平 级 , 就 像 工 厂 和 门 店
12、 的 关 系 一 样 , 两 者 应 该 是 相 辅 相 成 , 充 分发 挥 数 据 的 价 值 的 。Q2: 数 据 集 市 、 数 据 仓 库 在 方 法 论 上 有 什 么 差 异 , 为 什 么 选 择 不 同 的 技 术 和 平 台 ? 相 比 而 言 , 数据 集 市 和 数 据 仓 库 各 有 什 么 优 点 和 缺 点 ?A2-1:本 质 上 没 有 区 别 , 如 豪 华 汽 车 和 中 端 汽 车 , 目 的 是 解 决 不 同 场 景 的 问 题 。数 据 集 市 (Data Mart) , 也 叫 数 据 市 场 , 是 企 业 级 数 据 仓 库 的 一 个 子 集
13、 , 是 为 满 足 特 定 的 部 门 或者 用 户 的 需 求 , 只 面 向 某 个 特 定 的 主 题 , 数 据 集 市 存 储 为 特 定 用 户 预 先 计 算 好 的 数 据 , 从 而 满 足用 户 对 性 能 的 需 求 。 数 据 集 市 可 以 在 一 定 程 度 上 缓 解 访 问 数 据 仓 库 的 瓶 颈 。数 仓 解 决 海 量 数 据 统 计 分 析 , 低 用 户 并 发 , 大 量 计 算 。6数 据 集 市 低 延 时 和 高 并 发 查 询 的 情 况 下 具 备 足 够 的 支 撑 能 力 , 可 以 724 对 外 提 供 数 据 服 务 ,且 不
14、 影 响 原 有 数 据 仓 库 统 计 分 析 应 用 的 正 常 运 行 。A2-2:数 据 仓 库 用 于 存 放 着 非 常 多 的 各 类 数 据 , 而 数 据 集 市 是 把 某 些 方 面 的 数 据 包 装 对 外 服 务 的 。 所 以数 仓 的 数 据 全 , 粒 度 细 , 没 有 很 好 的 加 工 , 而 数 据 集 市 可 能 会 改 变 原 有 数 据 , 所 以 粒 度 是 较 粗 的 。数 据 仓 库 的 优 点 是 数 据 全 面 , 但 是 分 析 时 效 性 慢 , 而 数 据 集 市 更 关 注 于 时 效 性 和 应 用 场 景 , 不 关心 数
15、据 本 身 结 构 。三 、 数 据 集 市 的 项 目 建 设 方 案 及 技 术 点Q1: 在 软 /硬 件 、 开 发 、 运 行 、 维 护 和 管 理 等 各 个 方 面 面 临 哪 些 困 难 ? 如 何 克 服 ?A1-1:可 能 主 要 在 三 方 面 :1、 技 术 管 理 : 专 门 的 开 发 运 维 团 队 , 和 数 仓 ( 大 仓 ) 间 的 职 责 分 工 , 集 市 技 术 人 员 与 业 务 人 员间 的 职 责 分 工 明 确2、 技 术 架 构 : 集 市 数 据 架 构 设 计 , 从 数 仓 ( 大 仓 ) 数 据 加 载 , 数 据 集 市 运 维
16、监 控 , 集 市 高 性 能 、高 可 用 机 制 , 业 务 人 员 灵 活 定 制 数 据 服 务 与 集 市 日 常 数 据 服 务 、 集 市 数 据 加 载 间 的 资 源 分 配 , 新技 术 掌 控 力 度 等3、 信 息 安 全 : 开 发 、 运 维 分 离 , 生 产 操 作 各 项 安 全 审 计 , 数 据 库 本 身 权 限 最 小 、 数 据 隔 离 机 制等A1-2:类 比 大 数 据 平 台 , 数 据 ETL 是 个 非 常 重 要 且 比 较 有 难 度 的 技 术 点 , 往 往 会 有 人 提 出 数 据 导 的 不正 常 或 丢 失 、 数 据 未
17、正 常 到 达 等 情 况 , 这 个 没 有 较 好 的 解 决 方 法 , 只 能 做 好 监 控 , 尽 量 保 证 各7个 环 节 正 常 流 转 。 在 运 维 方 面 , 集 群 往 往 面 临 着 查 询 和 存 储 压 力 , 如 何 在 遇 到 问 题 时 有 效 解 决 或者 预 警 , 这 也 是 非 常 有 挑 战 的 , 可 以 通 过 对 平 台 底 层 的 了 解 , 不 断 对 集 群 进 行 优 化 和 监 控 。 在 开发 方 面 , 需 要 分 析 人 员 对 业 务 需 求 非 常 了 解 , 才 能 设 计 出 合 理 的 数 据 模 型 , 提 升
18、数 据 服 务 的 效 率 。Q2: 从 数 据 的 采 集 、 数 据 的 存 储 、 数 据 的 处 理 、 数 据 的 访 问 /供 应 等 几 个 方 面 , 那 种 方 案 合 适 ,以 及 如 何 进 行 设 计 ?A2-1:一 般 分 为 数 据 采 集 、 数 据 传 输 、 数 据 处 理 、 数 据 存 储 、 平 台 服 务 等 方 面 , 具 体 每 个 部 分 技 术 方 案需 要 看 企 业 的 需 求 , 关 键 点 包 括 : 数 据 治 理 、 数 据 加 载 、 数 据 存 储 等 方 面 。A2-2:整 体 架 构 包 括 采 集 、 存 储 、 处 理
19、和 访 问 等 层 次 , 就 像 建 立 大 数 据 平 台 一 样 , 这 都 是 需 要 重 点 考 虑的 技 术 点 , 至 于 哪 种 方 案 合 适 , 首 先 还 是 要 了 解 各 个 层 次 对 应 的 技 术 组 件 和 成 熟 的 解 决 方 案 , 对各 个 技 术 点 重 点 测 试 , 掌 握 优 缺 点 后 才 能 合 理 组 合 各 个 组 件 。 每 个 公 司 都 会 找 到 适 合 自 己 的 整 体方 案 , 毕 竟 , 并 没 有 一 种 方 案 能 完 全 适 应 各 个 公 司 的 数 据 情 况 。Q3: 数 据 集 市 完 成 的 目 标 和
20、使 命 是 什 么 ? 从 这 个 意 义 上 讲 , 应 该 为 数 据 集 市 的 成 功 标 准 设 计 什 么样 的 KPI?A3-1:主 要 分 为 业 务 需 求 和 技 术 需 求 两 部 分 。 业 务 需 求 主 要 是 技 术 服 务 部 门 或 系 统 的 业 务 场 景 , 建 模 即业 务 建 模 , 需 要 对 业 务 关 系 、 实 体 充 分 了 解 , 目 前 各 厂 商 针 对 各 个 行 业 , 如 证 券 都 有 成 熟 业 务 模型 。 技 术 需 求 主 要 包 括 可 维 护 性 、 性 能 、 安 全 、 监 控 运 维 等 。A3-2:需 求
21、模 型 的 确 定 需 要 详 细 了 解 业 务 需 求 , 同 时 具 备 数 据 建 模 思 维 , 将 需 求 转 化 为 数 学 模 型 , 从8而 通 过 数 据 集 市 计 算 引 擎 实 现 。 数 据 集 市 是 否 有 效 的 衡 量 标 准 有 扩 展 性 、 性 能 、 稳 定 性 、 安 全 、易 用 性 等 方 面 。Q4: 金 融 行 业 在 数 据 集 市 项 目 中 , 是 否 涉 及 到 主 机 、 存 储 、 数 据 库 、 系 统 管 理 等 的 选 型 ? 如 何 选型 ?A4-1:在 数 据 集 市 项 目 中 , 重 点 关 注 数 据 集 市 的
22、 系 统 技 术 方 案 , 好 的 数 据 存 储 和 计 算 引 擎 是 数 据 集 市 项目 成 功 与 否 的 关 键 , 存 储 格 式 、 计 算 性 能 、 扩 展 性 、 稳 定 性 、 安 全 性 、 数 据 ETL 等 方 面 都 是 要考 察 的 技 术 点 , 就 像 大 家 选 择 oracle 做 OLTP 系 统 一 样 , 选 择 一 个 好 的 底 层 引 擎 , 才 有 可 能 将数 据 集 市 做 大 做 强 。A4-2:一 般 数 据 集 市 和 企 业 数 据 仓 库 或 大 数 据 平 台 一 起 进 行 选 型 , 主 要 考 虑 点 包 括 分
23、布 式 系 统 , 性 价 比低 , 国 产 厂 商 , 金 融 行 业 成 功 案 例 , 满 足 各 项 需 求 指 标 等 。Q5: 金 融 行 业 在 规 划 数 据 集 市 项 目 时 , 有 哪 些 技 术 路 线 可 选 ? 如 何 选 ? 还 有 , 有 哪 些 数 据 集 市 的供 应 商 可 选 ? 如 何 考 察 ?A5:最 主 要 在 于 分 布 式 数 据 库 选 型 , 如 传 统 关 系 型 如 oracle、 db2, mpp 架 构GP、 TD、 Gbase, 新 兴 分 布 式 架 构 , 如 阿 里 云 、 华 为 、 星 环 大 数 据 平 台 等 。Q
24、6: 金 融 行 业 在 实 施 数 据 集 市 项 目 时 , 成 本 组 成 有 哪 些 ?A6-1:主 要 四 方 面 , 软 件 平 台 厂 商 支 持 、 团 队 建 设 、 应 用 系 统 开 发 、 硬 件 维 护 。9A6-2:主 要 包 括 硬 件 服 务 器 、 软 件 平 台 、 平 台 管 理 人 员 、 数 据 分 析 团 队 ( 建 模 、 数 据 服 务 化 、 系 统 开 发 )。Q7: 数 据 集 市 中 有 大 量 数 据 时 , 数 据 之 间 的 关 系 应 该 怎 么 管 理 呢 ? 场 景 问 题 : 面 对 大 量 的 数 据 集市 中 的 数 据
25、 , 有 可 能 针 对 同 一 个 属 性 从 不 同 的 表 里 得 到 是 存 在 不 一 致 的 情 况 的 。 这 种 情 况 怎 么 处理 ?A7-1:这 需 要 两 方 面 :1、 充 分 理 解 业 务 场 景 , 进 行 元 数 据 管 理 , 定 义 各 表 中 各 字 段 的 业 务 含 义2、 加 强 数 据 治 理 , 在 数 据 ETL 时 对 业 务 系 统 数 据 进 行 按 照 元 数 据 规 则 进 行 预 处 理 。A7-2:这 个 也 是 数 据 分 析 时 遇 到 的 共 性 问 题 , 数 据 仓 库 同 样 由 此 问 题 , 通 常 的 做 法
26、就 是 建 立 元 数 据 标 准 ,在 数 据 ETL 的 时 候 进 行 标 准 化 处 理 , 避 免 数 据 不 一 致 的 情 况 。Q8: 实 施 数 据 集 市 的 项 目 时 , 对 于 项 目 参 与 人 员 , 应 该 如 何 规 划 培 训 学 习 进 行 技 能 储 备 ?A8-1:数 据 集 市 的 项 目 跟 建 立 大 数 据 平 台 一 样 , 是 个 大 工 程 , 都 面 临 着 数 据 ETL、 存 储 、 计 算 、 数 据管 理 等 技 术 方 面 的 挑 战 , 而 比 大 数 据 平 台 更 复 杂 的 是 数 据 集 市 是 个 面 向 业 务
27、人 员 的 OLAP 型 系统 , 如 何 满 足 业 务 各 种 各 样 的 建 模 需 求 也 是 建 立 数 据 集 市 面 临 的 一 个 大 问 题 。 所 以 , 项 目 人 员 既要 懂 底 层 技 术 , 又 要 懂 上 层 业 务 , 只 有 这 样 才 能 发 挥 数 据 集 市 的 优 势 。 在 技 术 方 面 , 可 以 类 比 大数 据 平 台 , 可 以 储 备 数 据 ETL、 分 布 式 存 储 、 分 布 式 计 算 、 管 理 和 运 维 的 经 验 ; 业 务 上 就 要 深 入了 解 业 务 需 求 , 转 化 为 数 据 模 型 。四 、 数 据 集
28、 市 建 设 所 需 支 持 及 面 临 的 风 险10Q1: 数 据 集 市 的 建 设 方 应 该 是 那 个 部 门 ? 哪 些 部 门 需 要 提 供 支 持 ? 以 及 什 么 样 的 支 持 ?A1-1:建 设 方 为 技 术 部 门 的 数 据 仓 库 组 或 技 术 平 台 组 , 所 服 务 业 务 部 门 , 技 术 部 门 各 业 务 系 统 组 , 采 购 、财 务 部 门 , 按 照 各 部 门 分 工 支 持 配 合 。A1-2:业 务 部 门 、 技 术 部 门 ( 主 要 为 数 据 分 析 团 队 、 数 据 仓 库 团 队 ) 应 当 作 为 核 心 部 门
29、 对 此 支 持 , 主 要为 实 施 、 分 析 和 使 用 ; 其 余 部 门 应 当 作 为 辅 助 。Q2: 比 如 在 技 术 上 、 组 织 授 权 上 、 人 员 力 量 上 、 流 程 上 、 管 理 上 、 资 金 投 入 上 等 各 个 方 面 , 会 有哪 些 风 险 , 如 何 规 避 ?A2-1:1、 面 临 着 管 理 需 求 同 实 际 情 况 不 能 严 格 匹 配 。2、 项 目 推 动 过 程 需 要 各 业 务 部 门 有 效 的 统 一 组 织 和 规 划 安 排 。3、 IT 人 员 对 技 术 的 掌 握 和 对 项 目 控 制 很 关 键 。A2-
30、2:风 险 无 处 不 在 , 应 注 意 识 别 并 预 防 , 主 要 以 下 三 方 面( 1) 管 理 制 度 、 组 织 架 构专 门 的 开 发 运 维 团 队 , 和 数 仓 ( 大 仓 ) 间 的 职 责 分 工 , 集 市 技 术 人 员 与 业 务 人 员 间 的 职 责 分 工( 2) 技 术集 市 数 据 架 构 设 计 , 从 数 仓 ( 大 仓 ) 数 据 加 载 , 数 据 集 市 运 维 监 控 , 集 市 高 性 能 、 高 可 用 机 制 ,业 务 人 员 灵 活 定 制 数 据 服 务 与 集 市 日 常 数 据 服 务 、 集 市 数 据 加 载 间 的 资 源 分 配 , 新 技 术 掌 控 力 度( 3) 信 息 安 全开 发 、 运 维 分 离 , 生 产 操 作 各 项 安 全 审 计 , 数 据 库 本 身 权 限 最 小 、 数 据 隔 离 机 制