为落实《国家中长期科学和技术发展规划纲要(2006-2020年)》,以及国务院《关于促进云计算创新发展,培育信息产业新业态的意见》和《关于印发促进大数据发展行动纲要的通知》等提出的任务,国家重点研发计划启动实施“云计算和大数据”重点专项。根据本重点专项实施方案的部署,现提出2018年度项目申报指南建议。
本重点专项总体目标是:形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键技术自主可控。
本重点专项按照云计算和大数据基础设施、基于云模式和数据驱动的新型软件、大数据分析应用与类人智能、云端融合的感知认知与人机交互等4个创新链(技术方向),共部署20个重点研究任务。专项实施周期为5年(2016—2020)。
1. 云计算和大数据基础设施
1.1 数据科学的若干基础理论(基础研究类)
研究内容:研究大数据的数据建模理论,包括大数据的统一表示和有效度量等;研究大数据的新型计算复杂性理论,包括多项式可计算问题类的细分等;研究高通量计算理论与算法、高效并行计算算法、分布式计算算法、近似计算算法等;研究大规模分布式可扩展的数据存储与组织,能效优化的分布存储和处理的系统架构,以及数据副本一致性、数据压缩、数据划分与迁移等问题;研究大数据的数据治理理论与方法,包括数据质量管理、数据权属、数据隐私保护等。
考核指标:形成有国际性影响的数据科学理论体系,发表系列高水平学术论文和若干专著。在关键技术上申请系列专利,形成专利群。
1.2 基于NVM的TB级持久性内存存储系统及应用(共性关键技术类)
研究内容:研究持久性内存存储I/O栈与存储管理;分布式持久性内存文件系统;基于RDMA的分布式持久性共享内存新型编程模型;构建分布式持久性内存存储系统;研制基于TB级内存系统的典型大数据应用系统及示范。
考核指标:研制不少于8节点的内存存储系统,每节点包含TB级非易失性的持久性内存。分布式内存系统中节点间通信延迟不超过1us,高负载通信延迟不超过10us,带宽可扩展,8节点带宽不低于40GB/s。支持持久性内存的一致性,支持分布式持久共享内存的新型编程模型接口。支持持久化键值存储系统、高性能大图数据处理等典型大数据应用,读操作ops不低于5000万/s,写操作ops不低于1000万/s。
1.3 面向异构体系结构的高性能分布式数据分析系统(共性关键技术类)
研究内容:面向分布式异构体系结构,研究基于数据流的编程模型、性能建模技术、同步通信技术和运行时系统,并实现高通量视频、机器学习典型等应用示范。具体内容:支持异构体系结构上的数据流编程模型与软件工具链;异构体系结构上的运行时系统,支持CPU与加速器之间的高效率混合执行,支持加速器上的细粒度流水线并行;性能建模技术和优化调度技术,优化分配CPU与加速器上的运行资源;分布式异构系统数据处理技术,包括数据与计算的高效划分技术、负载平衡以及高性能同步通信技术。
考核指标:支持CPU-GPU异构体系结构,并支持单机多加速器和多机多加速器。性能建模技术可自动选取优化的执行模式,包括仅在CPU上执行、仅在加速器上执行以及在CPU和加速器上混合执行,并可给出混合执行时在CPU和GPU上执行的比例。支持单个GPU SM上部署多个kernel的细粒度任务调度,以及以此为基础的流水线并行模式。单机上CPU/GPU细粒度混合执行的应用性能是通用CPU的5倍以上,是仅实现粗粒度并行性的GPU的2倍以上。在8台服务器16块GPU的环境下,应用性能是8台CPU服务器的5倍以上,是仅实现粗粒度并行性的16块GPU性能的2倍以上。
1.4 面向图计算的通用计算机技术与系统(共性关键技术类)
研究内容:图计算众核处理器和异构图计算机体系结构;支撑异构图计算机的系统软件;面向异构图计算机系统的分布式处理技术;基于异构图计算机的数据管理与分析系统;基于异构图计算机的通用计算机系统,开展应用示范。
考核指标:研制面向图计算的众核处理器芯片原型;研制基于已有加速器的低功耗异构图计算系统,单节点图计算机总体性能达到G级TEPS,性能功耗比提升10倍;8节点的分布式异构图计算系统总体性能可达10GTEPS,静态图计算可获得2-3倍加速比;单节点支持50亿条边的图数据存储和查询,平均查询响应时间为秒级,支持每秒10万边的图流数据分析;开展包含社交网络在内的2个典型应用的验证开发。
1.5 基于国产处理器的新一代虚拟化及虚拟执行环境优化技术(共性关键技术类)
研究内容:研究基于国产单核、多核、众核处理器的新型虚拟化架构,虚拟计算环境下应用驱动的软件栈构造/设计的理论和方法;研究基于国产单核、多核、众核处理器等计算系统核心物理资源的虚拟化和容器技术,虚拟资源池的构建、组织、调度等技术;研究异构硬件的状态互通方法,应用驱动的虚拟资源的动态映射和调配方法,实现面向应用的统一编程接口;研究基于迭代反馈机制的轻量级虚拟机镜像定制、应用定制的虚拟机优化等方法和技术,构造面向特定应用的轻量级虚拟机;研究虚拟化和虚拟机的性能评价方法与基准测试、性能调优工具。
考核指标:国产处理器虚拟化后的性能指标与X86处理器相当,在关键行业的云计算系统中开展示范应用,在典型云计算应用负载下,较现有产品整机服务能力提升一个数量级,整机资源利用率提升50%,整机性能功耗比提升5倍。在关键技术上申请系列专利,形成专利群。
1.6 数据驱动的云数据中心智能管理技术与平台(共性关键技术类)
研究内容:研究基于计算智能的云计算运行能效评价与预测技术,实现数据驱动的云平台运行精准化评估与预测;数据驱动的大规模云资源智能调度与管理技术,显著提升能效,提高计算资源的利用率;大规模云计算网络资源的智能虚拟化技术,突破云网络资源的利用效率瓶颈;面向大数据应用的智能云工作流管理与调度技术,提供高能效、高服务质量的大数据工作流应用服务;基于云计算的分布式计算智能方法与技术集成,实现大规模的数据管理与智能处理;基于以上技术突破,研发云计算的智能部署、运维管理与服务能力保障技术,搭建云智能管理平台并开展示范应用。
考核指标:提出一套智能化的云计算运行能效评估、行为预测、资源调度、网络虚拟、工作流管理与系统运维的关键技术体系;研制的关键技术在基准测试上的指标与国际主流技术或产品相比处于领先行列;云工作流和云服务请求的接受率提升20%以上,满足用户在时间和成本等多方面的智能化选择需求;面向大数据智能处理需求,基于云平台集成10种以上的分布式计算智能方法;研制的云数据中心智能管理系统在50万台服务器以上规模的云数据中心开展系统的示范应用,整体水平处于国际领先地位;申请系列专利,形成专利群,并制定国家标准(送审稿)若干。
2. 基于云模式和数据驱动的新型软件
2.1群智化生态化软件开发方法与环境(基础研究类)
研究内容:研究群体智慧的形成机理、软件生态系统中的群体协作规律、社区组织模式、社会化特性和最佳实践;研究软件生态系统的多维度度量和评估方法、软件生态系统形成和演化的微过程模型等;研究基于大规模群体协同的在线需求获取与建模、软件设计与建模、软件实现与测试等群智软件开发模式与方法;研究基于开源软件和SaaS服务的可信软件资源管理框架和方法、群体驱动的软件制品搜索、推荐与合成技术;研制基于群体智慧和协同的软件开发、管理和维护支撑工具集及平台,形成支持智能化群体协作的软件开发环境,并在开源社区进行示范应用。
考核指标:建立基于群智协作的软件开发理论模型,形成覆盖软件生命全周期的群智软件开发方法、工具、环境和最佳实践,支持单一项目达到数十到数千名开发者规模;形成兼容国际主流、符合中国特色的群智化软件开发生态系统建设方案,在2个云计算和大数据开源社区进行实践与推广,实际应用于10个以上项目合计1000名以上开发者;形成一批具有引领作用的高水平论文成果,申请一批相关领域的知识产权。
2.2 基于编程现场大数据的软件智能开发方法和环境 (共性关键技术类)
研究内容:研究跨地域的软件开发现场的数据实时采集、清洗、组织、管理技术,基于机器学习的程序语义学习及自动生成方法与技术,面向代码质量实时动态检测与质量提升的智能编程技术,面向代码风格与编程规范实时检测与改进的智能人机交互方法与技术,上下文感知的编程接口与代码推荐方法;构建跨地域的软件开发现场数据库和规范源码样例库,研制基于智能化人机交互协作的软件敏捷开发云平台,在不同规模的软件企业中进行示范应用。
考核指标:研制的平台支持1000人以上的软件开发现场,人机交互协作系统响应时间低于2秒;规范源码样例库覆盖100个项目1000万行代码;在3个以上不同规模软件企业进行示范应用,最大开发人员规模超过1000人,支持10个软件开发项目,每个项目代码量不低于10万行,智能化人机交互协作覆盖70%以上的代码,接口与代码推荐平均准确率超过70%;形成一批具有引领作用的高水平论文成果,申请一批相关领域的知识产权。
2.3 面向智能制造的流程管控软件平台(应用示范类)
研究内容:研究面向智能制造中企业研发设计、生产制造、经营管理、销售服务、供应商管理和客户服务等多种流程的企业内外部系统基础数据获取及加密传输和存储技术、面向关键制造流程的知识建模技术、制造流程大数据实时分析技术、深度网络挖掘和决策技术、实时工业系统闭环控制技术、大规模企业流程并行技术等基于云模式和大数据的新型软件应用关键技术,研制面向智能制造的流程管控软件平台,并进行示范应用。
考核指标:提供实证的PB级的制造数据存储,关键企业数据加密效果需经具有安全评测资质的第三方认证;企业业务流程并行规模不少于10000条;支持10种常见国产和进口工业软件系统90%基础数据的获取;支持10种常见国产和进口生产制造设备系统的秒级调用和按需闭环控制;管控软件平台国产化率达到80%,在10个大型制造企业部署和应用。
2.4 私有云环境下服务化智能办公系统平台(应用示范类)
研究内容:针对私有云在办公环境下的广泛应用和多元化需求,研究适用于私有办公云建设的基础架构、虚拟应用、网络安全、数据存储以及数据分析等多项关键技术。重点研究计算节点非一致内存访问的动态绑定、虚拟化内存超配、网络数据包零拷贝、虚拟磁盘预读、存储缓存加速等关键技术。研究私有云环境下网络安全的基础理论与应用,重点研究平台无关的云安全系统,利用虚拟化技术实现东西向、南北向流量的统一防护。研究分布式存储的负载均衡、数据削减和分层、高可靠、异地容灾等关键技术和解决方案。研究基于办公数据的行为感知技术,重点研究基于上网行为的数据挖掘技术,用户行为分析技术以及自动化的异常检测技术。
考核指标:研制私有云环境下服务化智能办公系统,实现智能办公的行为感知,支持不少于10种行为感知应用,支持新应用的快速开发和部署,在3-5个重要的部门开展示范应用。完成系列国家或行业标准草案,其中若干获国家或行业标准主管部门立项或批准。
2.5云计算和大数据开源社区生态系统(含前期成果集成展示)(应用示范类)
研究内容:研究开源社区的运作模式和商业模式,研制安全可控的开源项目支撑系统,建立国内外开源项目和社区的按需同步机制,支持企业主导创建开源软硬件项目并建设相应的生态系统;研究基于众包的软件在线开发方法,建立软件开发知识库和软件工程云;研究开发一批面向云计算资源虚拟化、分布式管理与调度、存储与计算、监控与运维、云应用开发与部署等方面的开源软件;研究开发一批涉及大数据采集、存储、传输、分析、计算与应用相关的开源软件,促进大数据技术的完善及在各个领域中的大规模应用;建设有一定影响力的云计算和大数据开源社区,吸引一批云计算和大数据的技术人员参与和互动;培养一批高素质的人才队伍。
考核指标:建成由中国主导的云计算和大数据开源社区,培养一支100人以上的开源项目维护和贡献的技术队伍,吸引100家云计算和大数据相关企业参与,注册用户超10000人,月活跃用户超1000人;发布100项云计算和大数据相关开源软件(中国主导的开源软件不低于10项),合计每月更新1万次、下载10万次。
3. 大数据分析应用与类人智能
3.1大数据分析的基础理论和技术方法(基础研究+共性关键技术类)
研究内容:研究多源异构、先验知识缺乏、不确定条件下大数据的表示、存储、度量、语义理解和基于认知的分析方法,研究知识的自动抽取、知识发现的理论与方法,构建面向领域的知识图谱;研究大数据环境下机器学习的创新理论、方法和平台,提出面向流数据和复杂高维数据的新型分析挖掘技术;研究大数据知识推理、问题分析与求解等关键技术,提出大数据高效检索的理论方法;研究大数据的可视化技术,开发面向领域和大众的可视化工具库;研究在特定约束条件(例如安全性、隐私性、真实性、实时性)下的大数据分析理论和技术;研制开放共享的大数据分析平台,提供大数据分析、挖掘和可视化的基准测试。
考核指标:建立比较系统的大数据分析基础理论和技术方法,在机器学习理论与方法上取得创新突破,形成国际影响。研制大数据分析、挖掘与可视化的算法与工具库,不少于20个独立的系统或工具,并在中国开源社区开放。发表系列高水平学术论文,撰写专著若干部。在关键技术上申请系列专利,形成专利群。
3.2 高时效、可扩展计算模型和优化技术(共性关键技术类)
研究内容:研究新型分布式大数据组织与存储系统,增强系统的自适应性和可扩展性,可针对不同计算模式和任务负载特征进行自适应优化和调整;研究基于众核加速器的大数据计算模型、分布式处理框架、易用的编程环境,开发高效、可扩展的大数据计算系统;研究大数据分析意图理解,以及分析意图、分析方法及数据集合的智能匹配理论与技术,研究快速推荐数据分析途径、形成智能式交互向导的方法与系统技术,研究弹性资源管理、高效任务调度、以及执行优化技术;研究各类大数据机器学习算法的高效并行策略,设计通用的编程模型和接口,研制高效、可扩展、可兼容的大数据机器学习系统;面向连续流式大数据应用,研究具有极高吞吐量的流数据计算引擎;开发融合了内存计算、流计算、深度计算、以及经典机器学习的综合示范应用。
考核指标:在混合负载下,新型存储系统的性能要比开源Hadoop系统提高50%以上;大数据计算系统要支持批计算、流计算等多种计算模型;形成智能交互向导的反应时间小于1秒,推荐数据分析途径的用户满意度超过80%,有向导下数据分析执行时效比无向导提高5倍以上;深度学习模型要实现百万级参数的学习能力;示范应用的数据规模要达到PB级;主要系统要向中国开源社区开放,关键技术申请系列发明专利。
3.3互联网智慧教育关键技术与示范应用(应用示范类)
研究内容:研究教育知识图谱构建与导航学习关键技术;面向用户的个性化教育资源融合关键技术;在线学习助手关键技术;基于大数据的精准化教育评价技术;虚实融合教学场景构建和人机交互关键技术。集成上述技术,构建出互联网智慧教育平台,针对基础教育、职业培训等开放学习群体以及有组织学习群体开展互联网智慧教育示范应用。
考核指标:构建出互联网智慧教育平台。在基础教育方面,重点开展大数据驱动的中小学生学业水平和信息素养测评示范,辐射涵盖辐射东、中、西部地区的100个示范区,10000所实验校,受益人数超过1000万;在职业培训方面,研发建设基于VR/MR/AR技术的精品特色课程资源100门以上;面向企业需求的定制化人才培养等服务,培养IT、汽车、机械、电子等行业的技能人才300万以上;在有组织学习方面,构建涉及100门课程的10万个知识主题树,示范应用支撑的学习者人数不少于300万,实现跨学习平台融合汇聚1000项以上的课程和知识库等教育资源。
3.4基于天空地一体化大数据的公共安全事件智能感知与理解(应用示范类)
研究内容:针对目前公共安全事件预测困难和检测不准的问题,综合利用卫星和航拍影像、地面跨时空视频、网络数据和地理信息等,实现面向公共安全的天空地网大数据一体化智能处理。以事件为中心,研究跨时空多源大数据的多尺度、多粒度关联,地理信息驱动的目标检测、追踪和识别,多源异构数据融合的目标行为表示和语义理解,建立个体行为和群体事件的演化预测模型。突破公共安全大数据关联弱、理解浅、利用差等瓶颈,构建跨时空大数据一体化处理的公共安全事件智能感知和理解系统,实现多源异构数据关联挖掘、异常行为智能感知和事件处置决策支撑,并开展应用示范。
考核指标:研制跨时空大数据一体化处理的公共安全事件智能感知和理解系统,并在反恐维稳重点地区和边境地区进行应用示范。支持3种以上语言的识别,语种识别准确率超过90%,已知有害音视频发现率超过95%。突发事件感知准确率超过80%,特定人员和车辆的检测率超过90%,人员识别准确率超过95%。建立公共安全事件的定性描述和定量计算的转换不确定模型,支撑普适性空间智能服务。研发天空地网大数据在线分析与可视化工具,TB级数据在线实时检索与展示的响应时间低于10秒。
3.5基于立体精准画像的学术同行评价系统(应用示范类)
研究内容:根据学术同行评价的需求,研究学术行为的画像模型和体系,综合运用大数据技术(获取、清理、组织、分析等),为百万量级的学术群体,建立立体精准学术画像,形成实时动态、智能的画像库和学术关系图谱。研究学术画像的准确性验证方法和技术。研究学术画像多种维度的组合以及自适应权重等方法,以适合不同目的学术同行评价体系,研制以立体精准画像为基础的学术同行评价系统。
考核指标:学术画像库超过100万个体,具备24小时内新增1000个学术画像的能力。个体的学术画像与真实行为的时间间隔在72小时以内,学术画像的精准度超过98%。研制的学术同行评价系统在国家的科技、教育等权威部门开展应用示范,能为国家科技计划的辅助决策提供支持。
4. 云端融合的感知认知与人机交互
4.1人机物融合的云计算架构与平台(前沿基础类+共性关键技术类)
研究内容:针对人机物融合环境下的泛在化、社会化、情境化、智能化等应用特征,研究以人为中心的人机物融合云计算架构模型、终端和云端资源的软件定义方法、人机物融合应用的一体化建模方法等基础理论;研究以人为中心的终端和云端资源动态发现与协同管理技术、资源敏感和时空感知的应用自适应与自演化技术、面向移动互联网和物联网终端及边缘设备的超轻量虚拟化等关键技术;研制以人为中心的人机物融合云计算平台,并结合重点领域开展应用示范。
考核指标:建立面向人机物融合的软件定义基础理论与人机物融合云计算技术体系及规范;研制的云计算平台通过软件定义的方式接入并管理Android智能设备、Linux边缘设备和OpenStack公/私有云的软硬件及应用资源,验证的人机物融合场景需覆盖10个不同品牌合计100万台终端设备、支持100个第三方商业应用的按需融合;形成一批具有引领作用的高水平论文成果,申请一批相关领域的知识产权。
4.2 基于云计算的沉浸式交互影像技术与系统 (应用示范类)
研究内容:高维影像数据获取与语义理解,包括:面向沉浸式影视制作的全尺度数据捕获、高维光场影像高效获取、跨维度影像数据的语义解析及部件提取等;影像素材知识表达与智能聚合,包括:数据驱动的高精度、专业化、风格化模型表达,以及影像大数据动态聚合与自主生长等;影像定制化与个性化自动生成,包括:领域知识引导的影视级高端三维场景定制化自动生成,基于引擎的大规模影像个性化自动生成,高维光场影像云处理和云发布;影像编辑与交互功能深度合成,包括:语义特征结构保持的影像编辑合成、典型交互功能迁移与自动合成,具有行为真实感的智能角色生成与交互,以及沉浸式交互影像工业化生产关键技术等;沉浸式交互影像高效渲染呈现,包括:高维光场影像终端显示技术、三维模型高效渲染技术及工具;云端融合的沉浸式交互影像技术系统,及其在电影电视、游戏娱乐等行业的应用示范。
考核指标:电影级光场采集系统相机数量≥100台,工作范围≥20m2,捕获速度≥60fps;跨维度影像数据部件级语义解析准确率平均达90%,形成一个超过5万个模型的三维模型库,构建的场景内模型数超过500个;支持高维影像对象分割、时域编辑、风格化滤镜、虚拟对象嵌入、镜头智能剪辑与构图优化等智能影视创作关键功能;影像发布与计算平台传输带宽≥1TB/S,数据吞吐量读取速度≥6GB/s,写入速度≥4GB/s,并行处理文件数量≥20万/s,支持并行计算GPU数量≥100台;制定面向沉浸式交互影像的采集、传输、呈现的技术规范并形成标准,并实现在影视制作、游戏娱乐等行业的典型应用示范,成果应用项目超过50个。
4.3多模态自然交互的虚实融合开放式实验教学环境(应用示范类)
研究内容:建立支持云端融合和多模态自然交互的虚实融合课堂教学环境,具备视觉、听觉、触觉等感知能力的交互模块基础件,以及相应的实物交互套件;建立支持中学教育主要课程的虚拟实验开发平台和界面工具,支持教师自主生成互动虚拟实验教学资源;支持多模态人机交互的智能化学习环境,通过对多课程和多场景的数据汇集,研制与学习者个性化需求与能力适配的智能化学习系统; 建立新型探究式学习的全面评价体系,通过对学习过程与结果的智能识别与分析,汇集和提炼学习者的行为、心理和生理等多维度特征,实现对学习者多层次、精准化的客观评价。
考核指标:多模态自然交互模块基础件支持手势、语音、触觉、实物、笔式等交互技术,交互行为识别率大于90%;支持教师自主生成互动教学资源的虚拟实验开发平台和界面工具,覆盖数学、物理、化学、生物等主要课程,形成20个以上典型教学课件;制定云计算教学终端多模态人机交互技术标准,以及高沉浸呈现与多模态交互智慧教育课堂环境的行业规范;在中学开展应用示范,应用示范单位不少于200家;申请系列发明专利。
4.4基于云计算和智能交互的随身办公技术与系统(应用示范类)
研究内容:研制面向移动终端和虚实融合自然交互技术的多用户远程和本地协同办公平台,实现相应的用户界面工具和支撑硬件,研究面向移动协同办公和用户长历史行为大数据的个性化用户模型及增量式学习技术;突破大数据驱动的高灵敏触及反馈式虚拟投射键盘技术和高准确率的手指虚拟键盘动作识别技术,研发面向移动终端的多模态深度融合的高效率信息输入和内容编辑技术;研究基于云端的多移动终端的分屏显示与协作机制,研制满足长期健康使用需求的、具有匹配个体差异的沉浸式超大视场显示终端,实现多移动终端、穿戴式显示终端与虚拟键盘、手势、语音等的统一交互方式;在上述内容基础上,研究并构建面向行业应用的具有多模态融合的高效智能的随身办公系统。
考核指标:多用户远程和本地协同办公平台支持常见的移动终端,支持16个节点以上的远程交互,能支撑虚实融合的工作讨论、协同设计等任务;多模态自然交互协同办公机制支持虚拟键盘、触控、手势、语音和笔等通道,支持冗余、互补、混合等3种以上交互通道融合方式;虚拟投射键盘具有触及反馈功能,按键敲击识别准确率不低于95%,支持用户击键动作的个性化自动纠错技术,能够实现每分钟180个以上英文字符正确输入;沉浸式显示系统视场角不小于150度,能自主显示虚拟键盘,并与手势识别等协同交互工作,手势和击键动作识别准确率不低于95%,经大规模人群测试后的连续健康沉浸时间可达2小时;智能随身办公系统应支持企业办公、教育培训等行业用途,形成规模化产业应用。