1、 - 1 -“云计算和大数据”重点专项 2018年度项目申报指南为落实国家中长期科学和技术发展规划纲要(2006-2020 年) ,以及国务院关于促进云计算创新发展,培育信息产业新业态的意见和关于印发促进大数据发展行动纲要的通知等提出的任务,国家重点研发计划启动实施“云计算和大数据” 重点专项 。根据本重点专项实 施方案的部署,现提出 2018 年度项目申报指南建议。本重点专项总体目标是:形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与大数据骨干企业为主体的产业生态体系和具有全球竞争优势的
2、云计算与大数据产业集群;提升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键技术自主可控。本重点专项按照云计算和大数据基础设施、基于云模式和数据驱动的新型软件、大数据分析应用与类人智能、云端融合的感知认知与人机交互等 4 个创新链(技术方向),共部署 20 个 重 点 研 究 任 务 。专 项 实 施 周 期 为 5 年 (20162020)。- 2 -1. 云计算和大数据基础设施1.1 数据科学的若干基础理论(基础研究类)研究内容:研究大数据的数据建模理论,包括大数据的统一表示和有效度量等;研究大数据的新型计算复杂性理论,包括多项式可计算问题类的细分等;研究高通
3、量计算理论与算法、高效并行计算算法、分布式计算算法、近似计算算法等;研究大规模分布式可扩展的数据存储与组织,能效优化的分布存储和处理的系统架构,以及数据副本一致性、数据压缩、数据划分与迁移等问题;研究大数据的数据治理理论与方法,包括数据质量管理、数据权属、数据隐私保护等。考核指标:形成有国际性影响的数据科学理论体系,发表系列高水平学术论文和若干专著。在关键技术上申请系列专利,形成专利群。1.2 基于 NVM 的 TB 级持久性内存存储系统及应用(共性关键技术类) 研究内容:研究持久性内存存储 I/O 栈与存储管理;分布式持久性内存文件系统;基于 RDMA 的分布式持久性共享内存新型编程模型;构
4、建分布式持久性内存存储系统;研制基于 TB 级内存系统 的典型大数据应用系统及示范。考核指标:研制不少于 8 节点的内存存储系统,每节点包含 TB 级非易失性的持久性内存。分布式内存系统中节点间通信延迟不超过 1us,高负载通信延 迟不超过 10us,带宽可扩展,8 节点带宽不低于 40GB/s。支持持久性内存的一致- 3 -性,支持分布式持久共享内存的新型编程模型接口。支持持久化键值存储系统、高性能大图数据处理等典型大数据应用,读操作 ops 不低于 5000 万/s,写操作 ops 不低于 1000 万/s。1.3 面向异构体系结构的高性能分布式数据分析系统(共性关键技术类) 研究内容:面
5、向分布式异构体系结构,研究基于数据流的编程模型、性能建模技术、同步通信技术和运行时系统,并实现高通量视频、机器学习典型等应用示范。具体内容:支持异构体系结构上的数据流编程模型与软件工具链;异构体系结构上的运行时系统,支持 CPU 与加速器之间的高效率混合执行,支持加速器上的细粒度流水线并行;性能建模技术和优化调度技术,优化分配 CPU 与加速器上的运行资源;分布式异构系统数据处理技术,包括数据与计算的高效划分技术、负载平衡以及高性能同步通信技术。考核指标:支持 CPU-GPU 异构体系结构,并支持单机多加速器和多机多加速器。性能建模技术可自动选取优化的执行模式,包括仅在 CPU 上执行、仅在加
6、速器上执行以及在 CPU 和加速器上混合执行,并可给出混合执行时在 CPU和 GPU 上 执行的比例。支持单个 GPU SM 上部署多个kernel 的细 粒度任务调 度,以及以此为 基础的流水线并行模式。单机上 CPU/GPU 细粒度混合执行的应用性能是通用CPU 的 5 倍以上,是仅实现粗粒度并行性的 GPU 的 2 倍以上。在 8 台服务器 16 块 GPU 的环境下,应用性能是 8 台- 4 -CPU 服务器的 5 倍以上,是仅实现粗粒度并行性的 16 块GPU 性能的 2 倍以上。1.4 面向图计算的通用计算机技术与系统(共性关键技术类) 研究内容:图计算众核处理器和异构图计算机体系
7、结构;支撑异构图计算机的系统软件;面向异构图计算机系统的分布式处理技术;基于异构图计算机的数据管理与分析系统;基于异构图计算机的通用计算机系统,开展应用示范。考核指标:研制面向图计算的众核处理器芯片原型;研制基于已有加速器的低功耗异构图计算系统,单节点图计算机总体性能达到 G 级 TEPS,性能功耗比提升 10 倍;8 节点的分布式异构图计算系统总体性能可达 10GTEPS,静态图计算可获得 2-3 倍加速比;单节点支持 50 亿条边的图数据存储和查询,平均查询响应时间为秒级,支持每秒 10 万边的图流数据分析;开展包含社交网络在内的 2 个典型应用的验证开发。1.5 基于国产处理器的新一代虚
8、拟化及虚拟执行环境优化技术(共性关键技术类) 研究内容:研究基于国产单核、多核、众核处理器的新型虚拟化架构,虚拟计算环境下应用驱动的软件栈构造/设计的理论和方法;研究基于国产单核、多核、众核处理器等计算系统核心物理资源的虚拟化和容器技术,虚拟资源池的构建、组织、调度等技术;研究异构硬件的状态互通方法,应用驱动- 5 -的虚拟资源的动态映射和调配方法,实现面向应用的统一编程接口;研究基于迭代反馈机制的轻量级虚拟机镜像定制、应用定制的虚拟机优化等方法和技术,构造面向特定应用的轻量级虚拟机;研究虚拟化和虚拟机的性能评价方法与基准测试、性能调优工具。考核指标:国产处理器虚拟化后的性能指标与 X86 处
9、理器相当,在关键行业的云计算系统中开展示范应用,在典型云计算应用负载下,较现有产品整机服务能力提升一个数量级,整机资源利用率提升 50%,整机性能功耗比提升 5 倍。在关键技术上申请系列专利,形成专利群。1.6 数据驱动的云数据中心智能管理技术与平台(共性关键技术类)研究内容:研究基于计算智能的云计算运行能效评价与预测技术,实现数据驱动的云平台运行精准化评估与预测;数据驱动的大规模云资源智能调度与管理技术,显著提升能效,提高计算资源的利用率;大规模云计算网络资源的智能虚拟化技术,突破云网络资源的利用效率瓶颈;面向大数据应用的智能云工作流管理与调度技术,提供高能效、高服务质量的大数据工作流应用服
10、务;基于云计算的分布式计算智能方法与技术集成,实现大规模的数据管理与智能处理;基于以上技术突破,研发云计算的智能部署、运维管理与服务能力保障技术,搭建云智能管理平台并开展示范应用。考核指标:提出一套智能化的云计算运行能效评估、行- 6 -为预测、资源调度、网络虚拟、工作流管理与系统运维的关键技术体系;研制的关键技术在基准测试上的指标与国际主流技术或产品相比处于领先行列;云工作流和云服务请求的接受率提升 20%以上,满足用户在时间和成本等多方面的智能化选择需求;面向大数据智能处理需求,基于云平台集成10 种以上的分布式计算智能方法;研制的云数据中心智能管理系统在 50 万台服务器以上规模的云数据
11、中心开展系统的示范应用,整体水平处于国际领先地位;申请系列专利,形成专利群,并制定国家标准(送审稿)若干。2. 基于云模式和数据驱动的新型软件2.1 群智化生态化软件开发方法与环境(基础研究类) 研究内容:研究群体智慧的形成机理、软件生态系统中的群体协作规律、社区组织模式、社会化特性和最佳实践;研究软件生态系统的多维度度量和评估方法、软件生态系统形成和演化的微过程模型等;研究基于大规模群体协同的在线需求获取与建模、软件设计与建模、软件实现与测试等群智软件开发模式与方法;研究基于开源软件和 SaaS 服务的可信软件资源管理框架和方法、群体驱动的软件制品搜索、推荐与合成技术;研制基于群体智慧和协同
12、的软件开发、管理和维护支撑工具集及平台,形成支持智能化群体协作的软件开发环境,并在开源社区进行示范应用。考核指标:建立基于群智协作的软件开发理论模型,形成覆盖软件生命全周期的群智软件开发方法、工具、环境- 7 -和最佳实践,支持单一项目达到数十到数千名开发者规模;形成兼容国际主流、符合中国特色的群智化软件开发生态系统建设方案,在 2 个云计算和大数据开源社区进行实践与推广,实际应用于 10 个以上项目合计 1000 名以上开发者;形成一批具有引领作用的高水平论文成果,申请一批相关领域的知识产权。2.2 基于编程现场大数据的软件智能开发方法和环境 (共性关键技术类) 研究内容:研究跨地域的软件开
13、发现场的数据实时采集、清洗、组织、管理技术,基于机器学习的程序语义学习及自动生成方法与技术,面向代码质量实时动态检测与质量提升的智能编程技术,面向代码风格与编程规范实时检测与改进的智能人机交互方法与技术,上下文感知的编程接口与代码推荐方法;构建跨地域的软件开发现场数据库和规范源码样例库,研制基于智能化人机交互协作的软件敏捷开发云平台,在不同规模的软件企业中进行示范应用。考核指标:研制的平台支持 1000 人以上的软件开发现场,人机交互协作系统响应时间低于 2 秒;规范源码样例库覆盖 100 个项目 1000 万行代码;在 3 个以上不同规模软件企业进行示范应用,最大开发人员规模超过 1000
14、人,支持 10 个软件开发项目,每个项目代码量不低于 10 万行,智能化人机交互协作覆盖 70%以上的代码,接口与代码推荐平均准确率超过 70%;形成一批具有引领作用的高水平论文- 8 -成果,申请一批相关领域的知识产权。2.3 面向智能制造的流程管控软件平台(应用示范类)研究内容:研究面向智能制造中企业研发设计、生产制造、经营管理、销售服务、供应商管理和客户服务等多种流程的企业内外部系统基础数据获取及加密传输和存储技术、面向关键制造流程的知识建模技术、制造流程大数据实时分析技术、深度网络挖掘和决策技术、实时工业系统闭环控制技术、大规模企业流程并行技术等基于云模式和大数据的新型软件应用关键技术
15、,研制面向智能制造的流程管控软件平台,并进行示范应用。考核指标:提供实证的 PB 级的制造数据存储,关键企业数据加密效果需经具有安全评测资质的第三方认证;企业业务流程并行规模不少于 10000 条;支持 10 种常见国产和进口工业软件系统 90%基础数据的获取;支持 10 种常见国产和进口生产制造设备系统的秒级调用和按需闭环控制;管控软件平台国产化率达到 80%,在 10 个大型制造企业部署和应用。2.4 私有云环境下服务化智能办公系统平台(应用示范类)研究内容:针对私有云在办公环境下的广泛应用和多元化需求,研究适用于私有办公云建设的基础架构、虚拟应用、网络安全、数据存储以及数据分析等多项关键
16、技术。重点研究计算节点非一致内存访问的动态绑定、虚拟化内存超配、- 9 -网络数据包零拷贝、虚拟磁盘预读、存储缓存加速等关键技术。研究私有云环境下网络安全的基础理论与应用,重点研究平台无关的云安全系统,利用虚拟化技术实现东西向、南北向流量的统一防护。研究分布式存储的负载均衡、数据削减和分层、高可靠、异地容灾等关键技术和解决方案。研究基于办公数据的行为感知技术,重点研究基于上网行为的数据挖掘技术,用户行为分析技术以及自动化的异常检测技术。考核指标:研制私有云环境下服务化智能办公系统,实现智能办公的行为感知,支持不少于 10 种行为感知应用,支持新应用的快速开发和部署,在 3-5 个重要的部门开展
17、示范应用。完成系列国家或行业标准草案,其中若干获国家或行业标准主管部门立项或批准。2.5 云计算和大数据开源社区生态系统(含前期成果集成展示)(应用示范类) 研究内容:研究开源社区的运作模式和商业模式,研制安全可控的开源项目支撑系统,建立国内外开源项目和社区的按需同步机制,支持企业主导创建开源软硬件项目并建设相应的生态系统;研究基于众包的软件在线开发方法,建立软件开发知识库和软件工程云;研究开发一批面向云计算资源虚拟化、分布式管理与调度、存储与计算、监控与运维、云应用开发与部署等方面的开源软件;研究开发一批涉及大数据采集、存储、传输、分析、计算与应用相关的开源软件,促- 10 -进大数据技术的
18、完善及在各个领域中的大规模应用;建设有一定影响力的云计算和大数据开源社区,吸引一批云计算和大数据的技术人员参与和互动;培养一批高素质的人才队伍。考核指标:建成由中国主导的云计算和大数据开源社区,培养一支 100 人以上的开源项目维护和贡献的技术队伍,吸引 100 家云计算和大数据相关企业参与,注册用户超 10000人,月活跃用户超 1000 人;发布 100 项云计算和大数据相关开源软件(中国主导的开源软件不低于 10 项),合计每月更新 1 万次、下载 10 万次。3. 大数据分析应用与类人智能3.1 大数据分析的基础理论和技术方法(基础研究+共性关键技术类) 研究内容:研究多源异构、先验知识缺乏、不确定条件下大数据的表示、存储、度量、语义理解和基于认知的分析方法,研究知识的自动抽取、知识发现的理论与方法,构建面向领域的知识图谱;研究大数据环境下机器学习的创新理论、方法和平台,提出面向流数据和复杂高维数据的新型分析挖掘技术;研究大数据知识推理、问题分析与求解等关键技术,提出大数据高效检索的理论方法;研究大数据的可视化技术,开发面向领域和大众的可视化工具库;研究在特定约束条件(例如安全性、隐私性、真实性、实时性)下的大数据分析理论和技术;研制开放共享的大数据分析平台,提供大数据分