1、文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 - 1 -项目架构设计说明书AI 接口平台系统名称 AI 应用接口平台项目负责人 张志浩作者 张志浩文档提交日期 2017/06/15文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 - 2 -沪江教育科技(上海)股份有限公司(版权所有,翻版必究)文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 - 1 -修改记录No 版本号 修改内容简介 修改日期
2、 修改人1 v0.1 初稿全文 2017/6/7 张志浩2 V0.21. 增加时序图的说明2. 在“项目范围”中的数据平台提供的云知声接口封装时需要增加统一鉴权服务2017/6/12 张志浩3 V0.3在项目范围表格内增加语音评测技术提供商-驰声的接口参数说明,作为 AI 接口平台二期的功能。2017/6/21 张志浩文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 - 2 -目 录1 背景 .12 名词解释 .13 设计目标 .23.1 要实现的效果 .23.2 设计的性能指标 .23.3 相关软件及硬件 .23.4 服务器部
3、署图 .33.5 数据规模预估 .34 系统设计 .34.1 设计思路 .34.2 系统架构概览图 .44.3 AI 接口平台时序图 .44.4 数据采集与存储 .54.5 服务关系图 .55 项目范围 .66 项目计划 .77 风险评估及对其它系统影响(可选) .77.1 已知的或可预知的风险 .77.2 与其它系统可能的影响 .88 创新点挖掘(可选) .89 技术委员会审核意见 .8文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 - 3 -10 设计评审意见 .811 附件及参考资料 .812 详细设计 .912.1 存
4、储空间 .912.2 数据库 .912.3 接口设计 .1012.3.1 接口 OralEvaluationByAIService .1012.3.2 接口 API-第三方提供 .1112.3.3 接口 QueryOralEvaluationByID .1112.3.4 接口 CheckConsistencyWithAIService.1112.3.5 导入历史测评记录 .1112.3.6 接口 OralEvaluationOfflineReportedToAI .12文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 第 1 页
5、 共 12 页1 背景AI技术已经在沪江各个产品线内开始实践,目前使用的场景是口语测评,包括沪学APP和天天练口语。在AI技术推进过程中,沪江将保持第三方AI技术提供和自研的并行策略,初期以第三方提供商为主。现状下,各产品直接和AI提供商对接,这可以将AI技术在沪江各产品中得到落地,但也导致了对接成本、技术方案、数据回流等方面的问题,因此需要有一个统一的“AI应用接口平台”来保证沪江各产品和第三方提供商、自研AI产品之间的一致性问题,同时也将第三方AI提供商的结果能保存在沪江内部,为自研AI产品提供基础语料集。当前接入第三方 AI 服务的现状如图 1 所示。沪学 App 通过 SDK 直接访问
6、云知声,并提供了离线和在线的测评(离线测评的效果弱于在线测评),用户音频由该 SDK 直接录制并上传到云知声服务。而天天练口语则通过微信小程序、H5 触屏先将用户音频录制为的腾讯音频格式.silk,然后再在客户端将.silk 转换为.wave 后调用云知声接口,完成整个评测服务。云知声会保存 6 个月的用户音频材料,沪江各产品也可以通过相关接口获取用户的音频材料。同时沪江各产品也会分别保存用户的音频数据、口测文本和对应的测评成绩。可以参考已有的技术资料:http:/ 知 声沪 学 App客 户 端天 天 口 语微 信 小 程 序天 天 口 语触 屏 H5SDK离 线 测 评在 线 测 评Res
7、tful在 线 测 评Restful在 线 测 评1. 通 过 微 信 录 制 音 频 文 件 .silk2. 在 Web端 转 换 为 .wave.wave服 务 端沪 学 App天 天 口 语Restful图表 1 - 接入云知声服务现状2 名词解释- 【第三方AI技术提供商】 指为沪江产品提供AI技术服务、但不属于沪江集团的公司;- 【云知声】一站式提供语音、图像、语义理解、翻译、声纹、指纹、人脸等多种智能技术的人工智能服务公司http:/ 第 2 页 共 12 页3 设计目标3.1 要实现的效果 确保沪江产品接入第三方AI应用的商务和技术的一致性a) 降低接入成本:有 2 个沪江产品(
8、沪学 APP 和 天天练口语)分别接入了同一家 AI技术提供商-云知声,为了降低接入成本、统一数据上报与存储,需要对类似应用统一收口,建立一个统一的接口管理平台。b) 对内接口定义的稳定:由 AI 平台实现外部接口的转换,以及当需要更换第三方 AI 提供商的时候,尽量保持内部接口的稳定;c) 保持对外商务合作谈判的一致性;d) 初期不实现跨第三方 AI 服务的自动迁移,但可以作为后期的目标; 保存沪江产品和第三方AI应用之间的交互数据a) 将沪江内部产品和第三方 AI 提供商之间的交互数据都保存在 AI 平台;b) AI 实验室可以获取这部分数据作为智能研究的基础数据集; 承接AI实验室产品能
9、力的工程实现a) 该平台可以将 AI 实验室的能力进行工程化,并进行商业化应用和推广; 3.2 设计的性能指标表格 1 - 性能指标设计目标服务 指标 数据响应时间 500/s接口服务SLA 99.99%存储 周期 永久注:1)测评音频文件语音长度=1分钟2)目前QPS吞吐量30/s,总量有50,000/天3)评测文本长度在 5-50 个单词之间,每个音频在 2k-100k 之间;3.3 相关软件及硬件服务器配置采用公司标准,具体指标请参考下面表格:表格 2 - 软件和硬件需求模块 CPU/Core 内存 磁盘 网卡 数量API 8 8G 100G 默认 3文档名称:65383d44da11b
10、58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 第 3 页 共 12 页Web 8 8G 100G 默认 2Redis 24 32G 500G 默认 2MySQL BI MySQL 2组存储10T(按平均每个音频50K,每天500,000个,到17年底,需要一个备份)3.4 服务器部署图遵照公司现有的 IDC 环境,不需要特殊的服务部署要求,即:1. 音频数据存储在架构组的分布式文件系统 DFS;2. 业务数据存储在本地 IDC 机房,遵照公司统一的部署结构;但考虑到跨机房的网络速度,故 AI接口平台的服务器尽量部署在和业务同一个机房,目前考虑是无锡 B7 机房
11、。3.5 数据规模预估预估当前数据量和 3 个月后的数据量,会随实际业务发展情况调整相关资源。表格 3 - 数据规模预估指标 数据量 3个月后数据量接口调用总量 50,000/天 200,000/天QPS 30/s 100/s数据仓库 200万 1000万4 系统设计4.1 设计思路结合 AI 接口平台要实现的需求,AI 接口平台的设计目标如下:1. 作为沪江内部产品与外部服务提供商之间的统一入口、统一服务、统一管理,为沪江内部各产品提供稳定高效、规范易用的智能接口。2. 对第三方 AI 服务的稳定性和 SLA 进行统一的治理;3. 为沪江 AI 实验室的成果产品化提供工程化能力和入口,既为沪
12、江其它产品接入和使用 AI 实验室产品提供工程支持,也为 AI 实验室产品提供用户级的 Demo 门户;4. 承载第三方 AI 的输入和输出参数、聚合内外部尽可能的数据资源,为 AI 实验室提供实验数据文档名称:65383d44da11b58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 第 4 页 共 12 页和实验环境;4.2 系统架构概览图沪 学 App客 户 端天 天 口 语小 程 序 /触 屏 网 校 工 具AI接 口 管 理 平 台第 三 方 AI接 口语 音 图 像 NLPAI实 验 室作 业审 阅课 程复 习个 性学 习数 据 收 集数 据 分 析A
13、I技 术提 供 商 AAI实 验 室模 型 算 法BI计 算 资 源BI存 储 资 源SDK在 线HTTP在 线HTTP在 线HTTP在 线AI技 术提 供 商 B图表 2 - AI 接口平台设计概览图说明:1. 所有在线 AI 服务都需要通过 AI 接口平台来完成,包括 App、触屏、PC 网页;2. AI 接口平台提供 SDK 和 HTTP 服务;3. 针对 App 的 SDK 版本,离线 AI 服务可以独立完成,但需要尽可能的将离线的 AI 服务数据上传到 AI 接口平台;4. 根据 AI 实际需求场景,在实际部署环境中,可以进行分组部署;5. 在初期,AI 接口平台提供接口的统一接入服
14、务以及相应的接口治理,也保证 AI 接口平台自身服务的稳定性,但不包括对第三方服务的稳定性的保证。即若第三方服务自身服务出现异常,AI 接口平台会承担风险的跟踪,但需要各产品团队对接入的 AI 功能做好降级服务的准备;6. AI 接口平台也会将 BI 现有的存储资源、数据资源和计算资源进行开放,为 AI 实验室和各产品团队提供资源服务;4.3 AI 接口平台时序图1. 业务产品通过 API 调用 AI 服务,且只和 AI 接口平台产生直接交互。 (SDK 离线方式除外)2. AI 接口平台将请求或者转发到第三方 AI 服务,或者直接提供 AI 实验室的服务;文档名称:65383d44da11b
15、58bb3b17d0285d1fa6c.pdf沪江教育科技(上海)股份有限公司 第 5 页 共 12 页3. 同时 AI 接口平台把数据用户输入数据、返回的输出数据等异步上传到 BI 服务器;接 口 平 台 第 三 方 平 台AI实 验 室 BI调 用 API调 用 沪 江 AI数 据 或 接 口调 用 第 三 方 能 力 接 口异 步 调 用 BI数 据 上 报返 回 结 果存 储 系 统异 步 调 用 存 储 数 据业 务 方图表 3 - AI 接口平台时序图注:1. 调用 AI 实验室 /第三方 AI 平台和 调用 BI/存储系统是两个异步过程;2. 调用 AI 实验室 /第三方 AI 平台 是需要有返回结果,而调用 BI/存储系统则不需要有返回结果;3. 因此时序图中的“返回结果”是指调用“AI 实验室/第三方平台”的结果,和异步调用 BI/存储系统之间没有必然的时序关系;4.4 数据采集与存储BI 数据上报格式与规范:http:/ 服务关系图红色框部分为需要进一步详细架构设计的部分。