1、1989 1992 1997 201620142011BillOthelloDeep Blue AlphaGo2007SPHINX IBMWatsonAppleSiri1994NuanceChinookCheckers1988FacebookDeepFaceMicrosoftTayLoebnerPrizeClaudicoTexas Holdem2015GoogleBrain20122000 2013DQNXboxKinectGoogleNowMicrosoftCortanaPalantirMetropolisWealthfrontBettermentGoogleAdWordsKensho Go
2、ogleAuto- EmailMS OfficeGrammar2012CMU Boss BostonDynamicsGoogle CarPepperAmazon Kiva人工智能 发 展的主要里程碑AI = 机器学 习 + 大数据存 储 和 计 算能力的 发 展: Intel / Nvidia / SSD / Infiniband数据 规 模的 变 化: O2O / 物 联 网 / 互 联 网 +机器学 习领 域的 发 展: 框架、人才、数据科学家大 纲 1. 机器学 习产 品2. 算法与算法框架3. 可 扩 展平台架构4. 面向部署集成5. 案例与 选 型企 业级 机器学 习产 品架构解析机
3、器学 习产 品 要 解决什么 问题 ?业务专 家 :利用大数据和机器学 习获 得 业务 提升关心 : 模型效果、与 业务结 合、可解 释系 统 管理人 员 : 维护 大量数据流 & 线 上模型服 务关心 : 资 源使用、一致性、可管理性数据科学家 : 处 理数据 & 模型 调 研关心 : 算法、灵活性、可 扩 展性、性能模型效果 VS 调 研成本 大量数据 导 入 导 出 &预处 理 特征工程 &调 参领 域知 识 VS 技能要求 问题 定 义 和 优 化目 标 需要 业务经验 需要懂 Python / Spark / Tensorflow投 产 要求 VS 运 维难 度 线 上特征 实时预
4、估服 务机器学 习 平台的困 难 ?VSVSVS提升算法效果聪 明 VS 笨天真无邪 VS 博 览 群 书一代宗 师 VS 走火入魔确保模型效果 充分使用尽可能多的数据经验风险 : 模型 对 于 训练 数据分 类结 果的 误 差置信 风险 : 模型 对 于未知数据分 类结 果的 误 差样 本不足的情况下, VC维 越高,越容易 过拟 合样 本充足的情况下, VC维 越高,模型效果越好- 如何 获 得足 够 的 样 本数据:使用更多的表和字段, 3维 特征- 如何 获 得足 够 的 计 算能力:分布式机器学 习VC维 = 机器学 习 的 智商大 规 模机器学 习 框架 GDBTC+ 14 / 兼
5、具运行效率和开 发 效率机器学 习过 程抽象, 隐 藏分布式 细节数据流与学 习过 程的 紧 密 结 合面向 实际 客 户问题 的算法包SplitRRSplitRRSplitRRmap map map(Sort)reduceOutputFormatfilefileRecordReadersInput (k,v) pairsIntermediate (k,v) pairsPartitionerWrite back tolocal HDFSstoreMR/Spark ML 计 算模型Node 1Files loaded from local HDFS storesInput FormatSplitRRSplitRRSplitRRmapmapmapPartitioner(Sort)reduceOutputFormatfilefileRecordReadersInput (k,v) pairsIntermediate (k,v) pairsWrite back tolocal HDFSstoreNode 2Files loaded from local HDFS storesInput Format“Shuffling” processIntermediate(k,v) pairsexchanged by allnodesDataflowMapShuffleReduce