1、阿里搜索 实时计 算及在 线 学 习系 统 Pora介 绍提 纲 概要介 绍 实时计 算 在 线 学 习Pora概况 基于用 户 日志的 实时计 算和在 线 学 习 系 统 海量数据 处 理 每天 处 理几百 亿 条 实时 消息 沉淀用 户 行 为 、商品 访问 、特征 权 重海量数据 集成算法模型, 实时 更新在 线 服 务 端到端秒 级实时 从用 户 行 为发 生到 线 上感知的全 链 路反 馈 基于 Java实现业务场 景 应 用 场 景 实时 排序 /流量 调 控( 成交提升 10%) 实时 反作弊 实时 个性化搜索 /推荐 业务线 淘宝 天猫 聚划算 手淘 1688性能 现 状 实时
2、 性 端到端(从日志 发 生至 线 上生效)平均延 迟 3-4s Pora本身 处 理耗 时 在 200ms左右 数据量 每天 实际处 理 约 500亿 用 户 /商品行 为 消息 双 11预计 超 过 2000亿 QPS 正常峰 值 超 过 100万 /s,双 11预计 超 过 400万 /s 对应 内部 HBase QPS超 过 500万 /s,双 11预计超 过 2000万 /s提 纲 概要介 绍 实时计 算 总 体 设计 核心 层 业务层 在 线 学 习Pora总 体架构Pora垂直分 层11Pora核心 层 (Tec)特点 高吞吐,低延 迟 ,易嵌入,跨平台 DAG实时计 算框架 通
3、用,少开 发 HTable存 储 抽象及通用 实现 通用数据 结 构抽象 通用 处 理 逻辑 抽象 易 维护 Metric、 Trace、通用工具集 松耦合,可 扩 展DAG实时计 算框架 数据接入 Container,比如 IStreamContainer通 过 Input Format读 取 输 入数据(含数据源信息) DAG处 理 链 针对 数据源配置所有 处 理 节 点( Executor) Executor间 通 过输 入 输 出 依 赖 自 动 形成 内存 DAG ,允 许 并行 执 行 多 线 程并 发 每个 处 理 线 程有一个 独立 的 DAG实 例 线 程内置一个 FIFO BlockingQueue作 为实时输 入数据 buffer 异步 实时 获 取 buffer中的最新 一批 数据 驱动 DAG执 行 线 程数据分 发 Round Robin Field Dispatching12