数字孪生黄河算力建设实践与思考
摘要:合理规划水利部黄河水利委员会算力资源布局,优化算力资源设计,可为数字孪生黄河建设提供绿色、高效、安全、弹性的算力支撑。回顾了黄河水利委员会算力资源建设历程,分析了算力资源、保障设施建设现状,指出算力资源建设在多算力融合、算力资源服务能力、保障体系等方面存在的问题。基于数字孪生黄河建设对算力资源的需求,提出“整合已建、统筹在建、规范新建”的建设思路,整体设计采用中心算力“超集中”,边缘算力“超分布”,算力内核“多样化”,多元算力、算力多主体融合供给的“两超一多两融合”的“云边协同”布局思路,提出从基础计算、高性能计算、人工智能计算等方面提升算力,基于算力资源管理平台实现异构资源统一纳管、精细化权限管理等,从绿色机房环境、容灾备份、分区分域算力资源建设等方面加强保障体系建设,以期为黄河及其他流域后续算力资源规划建设提供参考。
随着技术推陈出新及运营模式发展变革,算力资源服务云化、配置标准化、管理自动化已成为新一代算力中心的显著特点。水利部黄河水利委员会(以下简称黄委)算力基础设施建设起步较早,2004年成立了全国水利系统的首家数据中心,并形成了以黄河数据中心为主,委属单位山东黄河河务局、河南黄河河务局、黄河上中游管理局、水文局、黄河水利科学研究院等分散建设的算力基础设施布局。近年,通过实施水利财务管理信息系统、黄委综合管理信息资源整合与共享等重点项目,黄河数据中心引入云计算、虚拟化等先进技术理念,以构建面向服务的云服务中心体系为目标,初步实现了物理资源的整合共享、灵活管理,提升了应用系统的部署效率,一定程度提高了计算资源的复用率。随着数字孪生黄河建设的深入,数据类型更加复杂多样,数据来源更加丰富,计算模型更加复杂融合,计算方式更加多元,对算力资源的需求也更加复杂、多元、融合。当前,委属各单位算力资源分散部署,整体算力指标强但资源服务能力弱,且传统算力资源无法满足人工智能、高性能计算等新技术应用需求。
2020年国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发《关于加快构建全国一体化大数据中心协同创新体系的指导意见》,明确指出“优化数据中心基础设施建设布局,加快实现数据中心集约化、规模化、绿色化发展”;2021年工业和信息化部出台《新型数据中心发展三年行动计划(2021—2023年)》,引导传统数据中心向具有高技术、高算力、高能效、高安全特征的新型数据中心演进,推动CPU、GPU等异构算力提升,支撑各类智能应用;2022年水利部印发《数字孪生流域建设技术大纲(试行)》,提出建成省级及以上水行政主管部门水利云,实现计算存储资源按需分配、弹性伸缩,为数字孪生流域提供安全可靠“算力”保障。
为适应智慧水利建设要求和黄河流域高质量发展客观需要,亟待推进黄委算力布局统筹共享,优化资源配置,提升资源服务能力,支撑新时期数字孪生黄河建设。
01、黄委算力资源建设历程
黄委算力资源建设主要经历“数字黄河”“数字孪生黄河”两个阶段。2001年7月25日,黄委党组正式提出建设“数字黄河”工程。2003年“数字黄河”工程规划正式发布,明确要求建设黄河数据中心,黄委算力资源采取“1+7”建设模式,即1个数据中心,委属单位水文局、山东黄河河务局、河南黄河河务局、黄河流域水资源保护局、黄河勘测规划设计研究院有限公司、黄河水利科学研究院、黄河上中游管理局7个分中心,并将分中心数据在中心备份。2004年,黄河数据中心一期工程建设完成,成为全国水利系统首家投入应用的数据中心,并在后续建设中逐步形成了“黄河数据中心+数据分中心”的运行模式。然而,随着设备老化、技术迭代和管理模式变化,中心与分中心之间的数据交换已经停止,分中心的数据也不再向数据中心备份。
“数字黄河”阶段数据存储能力达到了10TB级规模,重点存放基础数据和监测站点采集的结构化数据,采用FC-SAN存储技术满足数据高速IOPS访问需求。基础计算以物理机部署模式为主,并逐步开始向虚拟化方式部署转变;高性能计算平台浮点运算速度为每秒3840亿次,主要为黄委气象水文预报、下游水沙过程演进模拟运算提供计算支撑;基于机器学习、自然语言处理等技术的人工智能计算尚未得到应用。
按照水利部统一部署,黄委2022年开展数字孪生先行先试,国产化算力进一步提升。卫星、无人机、视频、无人船、工情险情监测感知设备等新型监测感知技术的普遍应用,使覆盖水利对象全要素和水利治理管理全过程的数据类型日益繁杂,数据量远超PB级,以云计算方式部署的基础计算已成为主流,高性能并行计算集群及人工智能计算作为通用计算的补充,应用需求旺盛。
02、数字孪生黄河算力建设实践
1.算力资源建设
在国家新型基础设施建设、信创要求及水利部数字孪生流域建设相关政策文件的指导下,按照“集约高效、共享开放、安全可靠、按需服务”的原则,在黄河云平台基础上,对云资源进行补充、提升和完善,形成融合了X86、ARM等不同架构类型,涵盖CPU、GPU等不同芯片的多元异构黄河云,有效支撑了智能遥感解译、无人机智能识别等智能并行运算,以及黄河水旱灾害防御、水资源管理与调配等“2+N”智能应用系统的高效稳定运行,满足了业务多样化的计算需求。计算资源分为基础计算、高性能计算和人工智能计算三类,包括国产化和非国产化两套体系。
基础计算通常指日常业务处理和信息服务计算,包括数据中心的服务器、存储和网络设备等基础设施,主要用于业务逻辑流程处理。黄委基础计算资源主要集中部署在黄河数据中心,并分布在山东黄河河务局、河南黄河河务局、水文局、黄河上中游管理局等委属单位。黄河数据中心于2015年开始引入云计算技术,开展了X86云平台建设,共有88个物理CPU,13TB内存,投入生产运行300余台虚拟机。目前X86云平台内存使用率超70%,云计算平台承载能力已经超过理论建议阈值,不再计划扩充。随着国产化的推进,2020年开始搭建国产云平台,选用ARM架构国产芯片搭建了计算资源池及存储资源池,操作系统选用银河麒麟V10,主要用于承载公文流转、移动办公等国产化改造后的电子政务系统。数据库为集中方式部署,组建了2节点Oracle RAC集群,目前承载了几十个业务系统,已经高负荷运转。考虑到系统性能,近两年购置的国产数据库,均为每套部署一个或几个业务应用。
高性能计算是能够对大量任务进行高效快速运算的技术,为科学研究提供大规模高性能科学计算和仿真计算服务。2006年,黄河水利科学研究院建成了流域机构第一家高性能计算平台——黄河超级计算中心。随着数字孪生黄河对“四预”(预报、预警、预演、预案)精度和时效性要求不断提高,黄委高性能计算集群能力近年得到一定提升,主要集中部署在委属单位黄河水利科学研究院和水文局,用于二三维水动力学模型、黄河流域堤坝溃决及洪水演进模型、黄河主要来水区间中长期径流预报模型等专业模型的高效计算。
人工智能计算是指用于执行人工智能算法和模型的计算过程,包括机器学习、自然语言处理、深度学习和计算机视觉等领域的计算。基于人工智能算法的遥感智能提取与分析、视频智能识别等技术在黄委河湖库“清四乱”(清理乱占、乱采、乱堆、乱建)、冰川融雪径流中长期预报等领域逐步开展应用,主要采用以英伟达GPU为主的人工智能计算芯片。
2.保障设施建设
黄河数据中心机房楼为单独楼体,为水旱灾害防御、水资源管理与调配、“黄河一张图”等几十个治黄业务系统的生产运行提供支撑。同时根据黄委算力资源分布,委属单位分散建设机房环境。由于建设年代较早,黄河数据中心机房基于传统机房模式建设,制冷效率低、机房能耗大,且涉及装修、制冷、供配电、消防等多专业分散集成,运维管理要求高。
为应对黄河云运行中资源监控分散、缺乏业务视角全局监控、辅助决策能力不足以及国产化资源监控手段缺失等问题,构建了基于国产化技术的黄委信息系统智能运维监控平台。该平台整合了信息系统资源,实现了资源监控、运维流程、资产管理和综合展示分析等功能的闭环管理,精细化云资源管理,一定程度提高了故障响应效率和云资源服务质量,确保了上层业务系统的稳定运行。
容灾备份方面,黄河数据中心基于备份一体机及虚拟化平台自带的备份功能,实现核心数据及重要业务系统的本地备份。部分委属单位建有本地备份系统。
3.差距与问题
①多算力融合实践成果不佳。一是委属各单位算力底层架构采用的技术路线、芯片型号各异,未进行有效整合,算力资源无法有效兼容和调度,影响了整体效益的发挥;二是委属各单位应用系统分散建设,数据格式、编译环境、接口标准等不一致,导致系统间融合使用困难,可操作性差,影响系统整体效能;三是国产化算力占比不高,部分重要业务系统需要进一步开展国产化适配;四是算力基础制度体系不健全,算力整合共享管理等制度办法落实缺乏强有力的抓手。
②算力资源服务能力有待提升。一是算力资源总量不足,现有算力资源多随系统或特定项目建设,没有过多冗余资源,存储资源总量已使用近80%,计算资源已近超分1:2阈值;二是尚未建立大规模面向业务生产运行的高性能计算和人工智能计算平台。
③保障体系存在薄弱环节。一是机房整体能耗高,目前黄河数据中心采用传统机房模式,非IT设备用电量占数据中心总能耗60%~70%,PUE(Power Usage Effectiveness,电源使用效率)值约为3.7,能耗大,运行成本高,不符合国家机房能效标准;二是根据《信息安全技术 网络安全等级保护基本要求》(GB/T 22239—2019),第三级安全要求“应提供异地实时备份功能,利用通信网络将重要数据实时备份至备份场地”,黄河数据中心需要建立数据异地灾备系统;三是政务外网区和互联网区未严格按照网络分区分域管理,存在混淆使用算力资源情况,具有较大网络安全风险。
03、数字孪生黄河算力建设思考
1.建设思路
按照“整合已建、统筹在建、规范新建”的建设思路,遵循国家、水利部关于算力资源集约化、规模化、绿色化部署要求及国产化战略要求,进一步挖掘算力资源潜能,统筹国产算力布局,扩充算力资源,构建数字孪生多元算力融合的黄河云。通过黄河云以虚拟数据中心(VDC)或多租户的方式共享算力,支撑流域“2+N”应用,建成数字孪生水利的黄河流域节点和数据灾备中心。
▲数字孪生黄河算力布局统筹共享总体思路
①整合已建。委属各单位现有算力资源物理位置保持不变,采用虚拟化或云化技术的国产化算力资源逻辑纳入多元算力融合黄河云,不具备或无法整合的算力资源维持现状使用,并逐步过渡到统一管理、按需共享。
②统筹在建。在建算力资源按照统一的技术标准纳入黄河云统一算力资源管理体系,形成算力合力。
③规范新建。服务于委级业务的应用,采用国产化技术统一部署在黄河数据中心,通过集约建设、集中部署、统筹管理,将有限资源优先满足数字孪生关键领域、核心业务的发展需要,既合理利用资源,又减少机房环境、网络安全等重复建设导致的资源浪费、安全风险点增加等不合理现象。其他应用原则上采用国产化技术云化部署,将新增算力资源与黄河云算力资源管理平台对接,实时归集云资源使用数据、云平台运行数据等,实现全委算力资源的统一管理及调度。
2.算力布局
黄河全长5464km,流域面积79.5万km²,范围大,距离长,环境复杂,全流域数据获取困难。考虑到系统响应时效及通信带宽等因素,根据数字孪生黄河建设数据采集、处理、分析需求,设计整体采用“两超一多两融合”的“云边协同”布局思路,即中心算力“超集中”,边缘算力“超分布”,算力内核“多样化”,多元算力、算力多主体融合供给。
(1)中心算力“超集中”
①集约化建设。将分散的算力资源整合至黄河数据中心,形成规模化、集约化的算力中心,降低建设成本,减少安全风险点,提高运维效率,更好地满足数字孪生黄河对大规模计算资源的需求。集中建设和分散建设两种模式对比见下表。
▲集中建设和分散建设模式对比
②绿色节能。集约化建设可减少单体小规模机房数量,采用模块化机房技术,对现有机房进行节能改造,降低能耗,响应国家绿色发展战略。
(2)边缘算力“超分布”
①边缘节点建设。在黄河流域的关键区域部署边缘云计算节点,靠近数据源进行数据采集、处理和分析,降低延迟,提高响应速度,减轻中心算力的负担。
②云边协同。通过云边协同技术,实现中心算力与边缘算力的协同工作,合理分配计算任务,优化资源利用,提升系统整体性能和可靠性。相比传统的云端数据处理,云边协同模式下,云端计算集群、边缘网络节点、物联网智能终端都可参与到感知、学习和决策的过程中。例如,在智能视频监控系统中,端设备(如智能摄像头)实时检测和识别水位线变化、非法捕捞行为等,边缘设备进行图像增强、目标跟踪、预警处置;而云计算中心则用于更复杂的数据分析和长期决策支持,如预测水位变化趋势,接收边缘设备上传的预警信息,进一步支持决策和资源调度。
▲“云边协同”模式
(3)算力内核“多样化”
①异构融合。采用多种芯片架构(如CPU、GPU、TPU等)和计算平台架构(如虚拟化、高性能计算、人工智能计算等),构建多元异构融合的算力资源池,满足不同业务场景下的多样化计算需求。
②弹性扩展。基于云计算技术,实现算力资源的弹性扩展,根据业务需求动态调整资源分配,提高资源利用率。
(4)多元算力、算力多主体融合供给
①资源共享。建立黄河数据中心与边缘节点的统一管理机制,通过资源虚拟化、异构计算框架构建、智能资源调度、负载均衡、存储分层、网络通信优化等技术有效整合与协同多元异构算力资源,实现算力资源的共享和调度,避免资源闲置和浪费。
②多方协同。积极探索与国家超级计算中心、省级数据中心等算力资源合作,实现多方协同供给,满足黄委对算力的多样化需求。
3.技术架构
数字孪生黄河算力总体框架设计包括物理资源层、云资源层、资源服务及管理层、资源使用层、资源应用层。
▲数字孪生黄河算力总体框架
物理资源层包含机房环境,CPU、GPU等异构计算资源,以及块、对象、文件等多种类型的存储资源,通过网络互联设备及必要的安全设备,将黄河数据中心、边缘云计算节点、灾备中心互联互通,从而形成统一算力基础设施。
云资源层通过虚拟化、多云管理、高性能计算集群管理等多种技术手段,将物理资源整合为计算存储等资源池,对上提供统一资源服务,主要包括虚拟化资源池、数据库资源池、人工智能计算资源池、大数据资源池、容器资源池、高性能计算资源池。
资源服务及管理层包括自助服务门户及统一管理门户,将底层算力资源统一以资源服务目录形式提供给上层应用,并实现对资源的统一监控、统一管理、统一调度。
资源使用层用户通过虚拟数据中心或租户形式以虚拟机、容器等多种方式使用算力资源,部署生产业务应用、模型计算或开发测试。
4.算力设计
(1)算力能力提升
以云计算、高性能计算、人工智能等新技术为基础,构建数字孪生黄河算力中心节点,为数字孪生黄河建设水利专业模型、智能模型、可视化模型等算法的并行计算、分布计算、模拟仿真需求及“2+N”智能业务运行提供高性能、高可靠、高安全的算力支撑,实现建设集约化、资源共享化、服务标准化、效益最大化。
按照功能分区,将算力资源整体分为基础计算资源区、人工智能区、高性能计算区及存储备份资源区。整体平台架构逻辑如下图所示。
▲数字孪生黄河算力部署架构
①基础计算业务区。基础计算业务区采用云计算平台架构建设,由基础计算服务器、数据库服务器、存储设备、云平台管理软件、数据库管理软件等组成,其中基础计算服务器基于虚拟化与容器等技术提供云化计算、存储资源,数据库服务器采用裸金属部署方式。基础计算业务区分为计算、管理和存储组网,其中存储在数据中心内部单独组网,计算和管理分别组网再汇聚上联。
②高性能计算区。高性能计算为并行计算架构,采用独立的并行计算框架底层架构逻辑,通过并行环境与并行调度软件搭建一套为科学计算、模型运算提供应用服务的高性能平台。前端业务设计采用10GE网络互联,后端存储及计算节点互联设计采用100GE网络互联组网,提供高速稳定的网络环境,保障高性能计算服务器之间的无缝协同工作,确保计算节点之间的通信畅通。
③人工智能区。人工智能计算与基础计算平台或高性能计算纳入统一管理,通过GPU直通、容器等方式为上层业务提供AI计算能力。前端业务设计采用10GE网络互联,后端存储互联与基础计算业务区或高性能计算区共用存储网络。
④存储备份资源。主要包括块存储、文件存储、对象存储及备份存储资源。块存储与上层计算资源采用FC-SAN组网,由光纤交换机连接计算及存储资源;文件存储及对象存储采用分布式存储架构,存储系统内部互联、存储节点与计算节点互联均采用25GE以上网络。
(2)算力资源管理平台建设
按照集约共享的方式,集约化建设算力资源,通过采取异构资源统一纳管、多级组织及精细化权限管理、自助化统一服务门户、算力资源运营闭环管理、云服务质量监管等多种技术手段,按需为上层应用提供高效弹性的算力资源服务。
①异构资源统一纳管。基于统一技术标准,将不同类型(如CPU、GPU)及不同芯片架构(如ARM架构、X86架构)的计算资源纳入统一资源管理体系,优化资源分配及调度,实现对各种资源的最大化利用及高效管理,为上层应用提供灵活的计算能力,提升算力整体运行效率及服务质量。
②多级组织与精细化权限管理。面向机关部门、委属单位设置算力资源多级组织管理,对于山东黄河河务局、河南黄河河务局、水文局、黄河水利科学研究院等算力资源需求较旺盛且具有一定技术管理能力的委属单位,通过云计算技术建立虚拟数据中心,划分一定算力资源由上述单位进行日常管理及自主分配,黄河数据中心对分配资源进行统一监控及运维分析;对于机关部门,以及陕西黄河河务局、山西黄河河务局、机关服务局等委属单位,直接申请使用算力资源,黄河数据中心按照租户模式为其划分计算存储资源并统一运行维护。
③自助化统一服务门户。基于统一的服务门户发布算力资源服务目录,用户可以快速通过服务目录选择计算、存储资源,提升算力自服务能力。
④算力资源运营闭环管理。提供算力资源治理、计量计费、服务运营等自动化支撑工具,融合资源编排、资产配置可视化等多种技术手段,灵活组合各类算力资源,降低分散算力资源的运维成本,提供可持续的算力服务。
⑤云服务质量监管。基于统一资源监控,在性能、可靠性、资源使用率、运行成本等多个方面出具专业的系统评估报告及资源升配、降配、闲置停用等优化建议,提升云服务质量,合力分配算力资源。
(3)保障体系建设
①基础环境。贯彻新发展理念,助力实现碳达峰、碳中和,进一步契合云计算、虚拟化、集中化、高密化等服务器发展趋势,在黄河数据中心统一机房建设基础环境。采用模块化机房技术,实现对黄河数据中心机房的模块化节能改造,扩展机房可用空间,力争达到国家A级机房标准,最大程度降低数据中心整体能耗,节约电能消耗40%以上,PUE值达到1.3~1.5。
②灾备体系。以黄河数据中心为主体,采用“两地三中心”技术架构建立流域容灾备份体系。同城灾备中心实现重要业务数据容灾及核心业务应用容灾,在保障核心业务连续性的同时,为智能算法、数字孪生、科学研究、系统研发等提供场景支撑和开发平台,避免灾备中心日常资源闲置;建设委级数据灾备系统,实现委属单位重要业务数据在黄河数据中心的集中统一灾备,并将黄河数据中心本地重要数据异地灾备至异地灾备中心,实现核心业务数据容灾和关键业务应用容灾。
③算力资源分区分域建设。按照网络安全要求规范分区建设,满足互联网业务应用及数据采集需求,采用超融合技术,在互联网隔离区(DMZ区)建设虚拟化平台,为上层业务提供统一的计算存储服务,实现政务外网区和互联网区的逻辑隔离,通过网络安全设备实现二者的数据交换。
04、结语
在国家新型数据中心建设和数字孪生黄河建设整体框架体系下,通过合理规划、建设、管理黄委算力提升资源服务能力,是本研究的出发点。回顾了黄委算力资源发展历程,分析了黄委算力资源建设的现状及问题,提出了“整合已建、统筹在建、规范新建”的建设思路,以及“两超一多两融合”的“云边协同”算力布局方案。通过构建多元异构融合的黄河云,加强算力资源平台及保障体系建设,将有效提升黄委算力资源服务能力,为数字孪生黄河建设提供有力支撑。未来,超集中的中心算力、超分布的边缘算力、云边算力间的协同保障体系的建设和落地执行,有待进一步深入研究。