水利大模型的建设思路、构建框架与应用场景初探

慧聪水工业网 2024-05-24 08:51 来源:中国水利杂志作者: 钱峰,成建国,等

01、水利大模型构建的重要意义

构建背景

习近平总书记指出,“把新一代人工智能作为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量,努力实现高质量发展”,“发展新质生产力是推动高质量发展的内在要求和重要着力点”。新质生产力具有新一轮科技革命和产业变革的质态特征,要求发展具有高科技、高效能、高质量的新型生产力。2024年国务院政府工作报告提出,深化大数据、人工智能等研发应用,开展“人工智能+”行动。为积极贯彻落实党中央、国务院部署,2024年全国水利工作会议强调,要大力推进数字孪生水利建设,推动人工智能大模型算法落地应用,提升“2+N”智能业务水平。

推进数字孪生水利建设是推动新阶段水利高质量发展的显著标志和重要路径。数字孪生水利由数据底板、模型平台、知识平台、业务应用以及水利信息化基础设施等组成。随着近年数字孪生水利快速推进,一套较为成熟的数字孪生水利数据底板、模型平台建设体系已经建立。数据底板作为数字化场景构建的基石,涵盖了基础数据、实时监测数据、业务管理数据、跨行业共享数据、地理空间数据以及多维度时空尺度数据模型,提供了坚实的算据支撑。模型平台作为数字孪生水利的核心与关键,集成了水利专业模型、智能模型和数字模拟仿真引擎,实现数学模型的装配组合和在线计算,为各类业务的模拟仿真和精准决策提供了有力的算法支持。然而,现阶段数字孪生水利知识平台建设是以将各类业务规则和经验转化为知识库为主,在水利智能转型升级的迫切需求下,如何利用大模型高效使用这些知识,以及如何让知识智能驱动模型开展业务计算,是当前亟须技术攻关的方向。

当前,我国正处于新一轮科技革命和产业变革的浪潮中,以人工智能、量子信息等为代表的新一代信息技术与发展新质生产力的理念十分契合。近年来,大语言模型(LLMs)在人工智能领域取得了显著进展,GPT-3/4、ChatGPT、Claude等大语言模型扩展了模型规模并大幅度提升了模型性能,实现任务求解途径通用化,并应用于医疗、教育等行业。目前市面上的大语言模型具有庞大的数据训练集和海量模型参数,展现出接近人类的复杂决策能力,正逐渐成为众多研究领域构建自主智能体、赋能业务应用的核心手段。

综上所述,在政策、行业、技术等多个视角下,迫切需要在水利行业开展大模型研究与定制化建设,实现人工智能大模型技术赋能水利业务、引领水利新质生产力发展、推动水利高质量发展的目标。

现状问题

大模型的发展经历了统计语言模型、神经网络语言模型、预训练语言模型等多个阶段。当前,随着Transformer架构等可拓展的训练架构与学习范式的提出,以及数据质量与数据规模的极大提升,大模型的参数规模能够拓展到百亿、千亿甚至万亿,并且将预训练任务进行统一。随着2022年年底ChatGPT等大模型应用的推出,大语言模型技术迅速席卷了整个社会,人工智能技术应用迎来了一次重要进展。除了OpenAI、百度等企业推出的大模型产品外,近两年,Llama、GLM、Baichuan、Qwen等国内外系列优秀开源模型的持续迭代,以及RWKV、Mamba等新型模型架构的不断提出,也有力推进了水利等行业大模型的探索实践。

大语言模型是否在行业有效落地,衡量关键是其可否理解行业的专业语言和逻辑,可否调用行业专业模型和相关工具,可否易于理解地展示行业需求,可否驱动使用行业的专有设备和能力。通用大语言模型在面向专业性较强的水利领域时,经常出现语义幻象和答非所问的问题。分析其原因和问题,主要有以下四点。

一是缺少水利领域的预训练和微调,大语言模型很难深入理解行业专有名词、现象及物理机制。比如对大语言模型提问“结合水库异重流潜入点条件给出小浪底实时调度排沙方案”时,因其无法理解水利专业术语“水库异重流潜入点”“实时调度”“排沙方案”的专业含义和物理机制,无法理解问答需求,很难给出专业答案。

二是缺少与业务知识图谱推理能力的融合,导致大语言模型无法理解水利行业决策内在逻辑,不具备业务的推理能力。比如对大语言模型部署“研判当前降雨形势,给出水库调度预案”的指令时,因其无法理解“降雨-产流-汇流-演进”的联动逻辑,因此无法先后调用对应的子模块开展业务分析。

三是缺少与水利专业模型的耦合,使得大语言模型即使具备了问题二描述的逻辑分析能力,也难以量化分析开展精准化决策支撑。比如对大语言模型提问 “结合当前官厅—山峡区间降水,预估未来永定河卢沟桥的水位过程”,因其无法实时驱动水文模型和水动力模型开展预报和洪水演进计算,无法给予精确的结果反馈。

四是缺少与水利专有设备和能力的互动。大语言模型目前无法在水利工作者熟悉的工作场景中开展应用,不能有效驱动水利装备和设施运行。

概念与功能

水利大模型是指以大语言模型为核心,以水利知识开展专业预训练和微调,以水利知识图谱开展大模型逻辑强化,以水利专业模型耦合开展量化计算赋能,构建的水利专业领域的数据处理、逻辑理解、模型调用和智能决策的行业大模型。通俗地讲,水利大模型就是解决计算机如何理解人类关于水利的语言,如何分解水利工作流程,如何运用水利专业数据推理计算,如何按照水利业务逻辑和要素进行展示等问题的辅助决策的智能工具与应用。

水利大模型具备“听懂水利话”“会分解水利任务”“可调用水利专业模型”“可展示推演结果”“可驱动设施装备”等五个方面的行业落地能力,能够降低水利复杂业务的门槛,减少业务人员重复工作量,为业务决策者提供更全面的决策信息和智能化决策方案建议。

建设具备上述能力的水利大模型对于提升数字孪生水利决策支持体系能力具有重大意义。通过深入挖掘数据的潜在价值,水利大模型可以驱动和运用水利知识图谱、历史场景模式、业务规则以及专家经验,还可以组合调用水利专业模型,不仅可以为流域防洪和水资源管理与调配的“四预”(预报、预警、预演、预案)提供有力支持,还能为水利工程建设运行管理、河湖管理等“N项”业务提供丰富的业务决策知识支持,在水利行业多个业务领域助力实现智能管理和精准决策。例如,在应对2021年黄河流域秋汛洪水时,对计算机提出“计算确保下游防洪安全的小浪底水利枢纽调度过程和黄河干流花园口站流量过程”,水利大模型可通过获取三花间、潼关以上的降水径流输入,驱动水文预报、水动力演进、水库联合调度等模型计算,得到水库联合调度后的小浪底下泄过程和花园口水文站的预测流量过程,并动态滚动计算,为防汛决策、水库精细化调度运用等提供智能支持。

可行性

目前,水利部信息中心正统筹行业高校、科研机构、工程单位等的大模型研发团队,依托多项科研、生产项目开展水利大模型构建关键技术研究和初步应用场景建设,为水利大模型落地应用提供可行方案。

数据基础方面,截至2023年年底,已在全国水利“一张图”实现水库、河道堤防、蓄滞洪区等55类1600多万个水利对象信息联动更新,动态汇聚业务管理数据26.2亿条。专线获取高分、资源、环境等系列23颗国产遥感卫星影像资源,接入4600多路水利视频资源,有力提升新型感知能力。已构建全国65条重要河流的323个重要断面洪水预报方案、河湖水系与水利工程关联关系,70条跨省重要河流的水量分配方案,83个重要河湖的144个断面生态流量管控规则等,建立了140余场历史大洪水资料数据库,已初步具备构建水利大模型的训练数据以及标准化应用场景。94项数字孪生水利建设先行先试任务为水利大模型的建设提供了数据、知识库基础,并初步探索了相关业务模式。

模型联动方面,水利部正在积极组织推进流域产汇流、土壤侵蚀、地下水、泥沙、水资源调配、工程调度等6类21项水利专业模型研发,有关模型在水旱灾害防御、水资源管理与调配等业务中长期应用,积累了模型研发经验。水利部信息中心正在牵头推进数字孪生水利模型平台的建设,为水利专业模型输入、输出、集成部署、数据传输等提供标准化接口工具和统一平台。水利专业模型和水利模型平台的研发可弥补水利大模型在水利专业模拟求解算法中的不足。

技术架构方面,目前国内IT行业已全面开展大模型研发应用工作,在预训练语言模型时代,自然语言处理领域广泛采用了预训练+微调的范式,形成了以BERT为代表的编码器(Encoder-only)架构、以GPT为代表的解码器(Decoder-only)架构和以T5为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型,相关产品在交通、医疗、教育等行业开展了初步应用,大模型底座技术成熟。

人才储备方面,随着数字孪生水利建设的全面推进,各级水利单位通过先行先试等工作积累了一定数量的技术人才,水利科研单位和企业也推进了人才队伍建设,这些人才具有计算机学科知识以及水利业务应用经验,为水利大模型建设以及业务场景应用提供了人才保障。

02、水利大模型构建思路、关键技术与架构

构建思路

按照“需求牵引、应用至上、数字赋能、提升能力”要求,在水利部数字孪生平台的基础上,开展适用于行业的大模型遴选、领域训练及微调,将大模型与水利行业的传统知识进行融合,形成“听懂水利话”的理解能力;开展水利知识库建设和知识图谱强化的领域大模型建设,通过知识图谱技术提供知识引擎的决策支撑和推理约束,形成“会分解水利任务”的分析能力;开展大模型驱动的模型平台组合调用与外引工具计算,实现知识引擎驱动数据、模型运转,形成“可调用水利专业模型”的计算能力;开展基于全国水利“一张图”的多模态大模型融合开发,形成“可展示推演结果”的显示能力;开展水利大模型与涉水多终端、芯片研制的耦合联动,形成“可驱动设施装备”的终端能力。构建具备先进性、实用性、集成性、开放性、可靠性、安全性的水利大模型平台,并在“2+N”业务中实际运用,逐步形成水利领域大模型共建共享体系。

水利大模型的建设思路、构建框架与应用场景初探

▲水利大模型构建思路

水利大模型的建设思路、构建框架与应用场景初探

▲水利知识引擎构建架构

需深化研究的关键技术

构建水利大模型不是简单地使用水利行业数据集对大语言模型算法进行定制训练,需要重点构建灵活、自主、可扩展的水利大模型推理与运营引擎,形成适应水利行业的训练范式,并研究“基于知识图谱的水利大模型调优推理功能”“大模型与水利行业实时监测感知技术融合”等技术难点。

灵活、自主、可扩展的水利大模型引擎构建

面向水利知识驱动业务推理决策的目标,研究具备人机交互、推理解析和调度执行功能的水利大模型推理引擎,使大模型支持人机多方式交互、多意图识别、多工具调用。研究数据转换、数据融合的高效引擎和访问接口技术,实现水利大模型与数据底板、模型平台的实时交互,支持多层级用户协同。

水利大模型基于预训练和微调的行业领域训练范式研究

面向水利业务应用需求,通过汇集整理海量多源水利行业数据,对数据进行业务分类,对大模型进行预训练,结合典型水利业务应用场景流程对模型调优,采用全量更新或LoRA等PEFT(参数高效微调)方法,增强模型在水利领域的理解力和任务执行力,形成对于大模型微调的水利领域训练范式,提升大模型推理的合理性和可解释性。

基于知识图谱强化的水利大模型构建与知识涌现研究

通过研究辅助大模型识别分析的知识图谱技术,使大模型在语义理解基础上实现工作流程自动化识别和多业务数据关联,赋予大模型算法所不具备的水利业务流程推理能力。研究多业务融合知识图谱本体构建方法,从多时空多尺度对流域环境中的水利对象和要素进行数字化描述,形成数字化的水利业务逻辑流。应用大模型辅助的知识挖掘技术,实现多业务间对象、模型与数据的关联,完成基于大模型的知识库构建。

水利大模型驱动的水利专业模型计算寻优技术研究

研究基于遥感图像和专家经验知识的机理模型参数智能优化技术,实现模型参数的自适应动态优化,真正意义上实现水利大模型自主驱动水利专业计算并进行知识资产迭代,构建大模型知识引擎改进预报作业流程的能力。通过研究数据与知识双持的参数优化技术,实现对水文、工程调度等专业数学模型的智能参数寻优。研发基于态势感知的多尺度相似度算法匹配技术,实现基于历史调度过程和预设推演过程的流域场景相似度匹配,支持预报调度一体化快速推演。研究基于调度规则引导和调度员经验干预引导的强化学习决策模型,实现基于大模型交互和水利知识约束的智能决策辅助,提升智能算法寻优效率。

水利大模型驱动的“天空地”监测感知协同技术研究

除了驱动数字孪生水利软件计算外,水利大模型还可以赋能水利“天空地”监测感知能力的提升。研究水利大模型与水利遥感卫星、激光雷达、测雨雷达、雨量站、水文站等天基、空基、地基新技术新设备研发和装备应用的协同融合技术,通过水利大模型驱动设备智能运行、监测数据智能汇集处理、监测误差智能识别等功能的实现,加快人工智能技术对传统监测感知手段的赋能提升,提升全天时、全天候监测及智能服务能力。

主要架构

为构建具备自主知识产权、方便定制使用、业务适用广泛的水利大模型,并逐步构建水利领域大模型共建共享体系,在数字孪生水利框架下设计了基于平台业务需求的水利大模型平台架构,充分汲取物理水利知识,与数字孪生流域、水网、工程等建设智能交互,赋能流域防洪、水资源管理与调配等业务应用,同时通过大模型的能力提升网络安全保障水平。平台架构涵盖各层次的组件、服务和集成方式,自上而下描述了用户层、基础应用层、接入交互层、原生服务、推理引擎、资源运营平台、系统管理中心等组件的规划,及其与外部系统与设施的关系,具体如下图所示。

水利大模型的建设思路、构建框架与应用场景初探

▲水利大模型架构

其中,资源运营平台与数字孪生水利数据底板、模型平台充分交互对接,主要负责水利数据、(大)模型、水利知识以及技能等资源的注册、配置管理和监控评估,为水利知识驱动业务流程提供可调用单元。推理引擎主要包括人机交互、逻辑推理、调度执行等服务,将用户提出的需求及其相关数据、知识交由大模型进行推理,进而根据业务逻辑按顺序调用数字孪生平台或应用系统的功能。系统管理中心主要负责用户、服务、运维、标准等管理,可与已有系统打通。

平台整体围绕需求方(决策领导、一线业务员、应用系统开发员等)、供给方(数据、模型、知识、工具供给者等)、管理方(行业管理、平台管理、运维管理等)等用户,在基础设施的基础上,利用资源运营平台和推理引擎提供多轮对话、知识加工、知识利用、意图识别、工具利用等功能,逐步扩展个性化跟随、持续学习、多模态、逻辑优化、工具制造等能力,并支持以网页(Web)、移动应用(App)、随航助手(Copilot)、小程序、服务接口(API)等方式接入各类系统,支撑实现知识秘书、全国水利“一张图”助手、洪水调度方案辅助生成、河湖遥感智能分析预警、智能客服等基础应用。

03、水利部大模型构建与应用场景

水利部大模型构建模式

通过科学研究和基建前期攻关,水利部信息中心开展水利部大模型建设,构建了灵活、自主、可扩展的水利大模型推理与运营引擎框架,设计了基于预训练和微调的行业领域训练以及知识参数在线更新模式,探索了文档办公、图像识别、专业计算与智能决策类应用。面向水利行业不同层级管理主体,拟通过“1+7+X”建设形式实现标准统一,接口规范,流域、省份、工程按规范自主建设,充分共建共享的水利部大模型。在支撑数字孪生水利建设方面,实现对数字孪生水利数据底板信息的动态更新应用,实现水利大模型对模型平台的计算运行驱动和参数动态更新,逐步实现对水旱灾害防御、水资源管理与调配、河湖管理以及其他水利业务应用的赋能,形成水利知识驱动水利业务应用的典型范式,提升水利行业的工作效率和决策精准化、管理智能化水平。水利大模型构建模式见下图。

水利大模型的建设思路、构建框架与应用场景初探

▲水利大模型构建模式

应用场景分析

文档办公类应用

文档办公类应用主要应对用户对智能化、自动化、定制化编制办公材料的需求,集成了信息检索、公文撰写辅助和摘要提取等功能,具备生成会议方案、编写数据图表文档(初稿)、摘要总结复杂材料等能力,可提高办文办会办事效率,降低基础性重复操作。

水利大模型的建设思路、构建框架与应用场景初探

水利大模型的建设思路、构建框架与应用场景初探

▲文档办公类应用示意图

大模型将首先根据用户提出的需求和指定模板,生成文档或其他材料的框架结构(根据字数篇幅或用户需求细分到多级目录),随后根据分段主题填充内容,其间引用水利常识、技术标准、政策规定等公共知识库和用户私有知识库(如召回检索增强RAG等技术),若存在对实时数据的引用,将利用资源运营中存在的数据、模型查询接口进行查询并归纳总结。用户可根据大模型生成的结果,通过对话方式与大模型协同修改、完善材料。与通用的文档版办公场景相比,水利大模型平台支持从用户可访问的全国水利“一张图”等系统中接入实时水利业务数据并进行分析。

基于水利大模型平台,用户仅需要在对话框中提出对文档的需求,并根据情况提供少量的私有材料(如文档模板或用户整理搜集的材料),大模型即可根据需求逐步引导用户完成相关文档的构建,并支持文档在线阅览或下载。

图像识别类应用

为了确保水利管理的精确与高效,图像识别类应用基于全国水利“一张图”构建,集成水利大模型与数字孪生技术,为用户提供定制化服务。用户可以根据自身需求设置主题,系统相应动态生成涵盖降水量分布、水库蓄水量、河流水位等关键水文和空间信息的专题图表。具体应用场景包括:基于高分遥感影像,通过大模型调用遥感智能识别模型,识别河道管理范围内的建筑物;通过大模型自动检索河湖遥感平台本底数据库,识别新增的建筑物清单;通过大模型自动生成河道新增疑似碍洪违建分析报告,并给出现场核查最优路线方案等。

水利大模型的建设思路、构建框架与应用场景初探

▲图像识别类应用示意图

图像识别类应用通过高级的数据处理技术和用户界面设计,实现数据深度整合和智能化处理。利用算法驱动的服务选择机制,图象识别类应用可以精准筛选并展示相关水利服务,同时降低操作复杂性,提升用户交互体验。水利大模型的应用可显著提高业务人员与水利系统的交互效率,用户通过点击或问答的形式与全国水利一张图进行交互,如查询流域范围、水利设施详细信息等,查询结果能够实时通过图表、文字及底图形式在前端呈现。

专业计算与智能决策类应用

水利专业数学模型和计算是数字孪生水利的核心和关键,但水文预报、水动力学、水利工程多目标优化调度等专业模型对于业务人员专业技术要求较高,一般业务人员面临复杂决策情况时往往无法做出科学合理的水利专业计算,进而难以制定精准的决策方案。如在流域性洪水“四预”工作流程中,需要水文预报、预警发布、调度预演、预案执行等多业务部门多人员组成的团队滚动会商数小时乃至数天,才能制定合理的防洪预案。水利大模型的应用可有效提升管理人员对海量水利业务数据的分析处理能力,通过大模型驱动数字孪生技术也可对各类复杂决策进行快速、低成本的预演和优化评估,有效提升决策效率。

基于大模型对多源水利数据知识挖掘技术,水利专业计算和智能决策类应用可实现多业务领域中水利对象、专业模型交互对接的能力。研究多业务融合知识图谱本体构建方法,使大模型与业务规则、学科知识、专家经验、历史场景等水利知识库内容以及人类自然语言理解能力进行对接,实现业务应用场景驱动水利大模型开展水利专业计算与智能决策。通过大模型驱动水利专业计算来推演不同调度方案的物理过程与预期影响,实现基于大模型交互和水利知识约束的智能决策辅助,从而增强水利业务决策的高效化、科学化和智能化水平。

水利大模型不仅能够根据用户提供的信息推荐有效的预报和调度方案,还能够驱动数字孪生水利模型平台模拟各种极端情境,评估可能的风险。可以实现模型引擎调用AI模型,实现气象台风路径及强度预测(分钟级)、流域降雨模拟(分钟级)、河道水位涨幅预报(秒级)、洪涝淹没快速预报(分钟级)、调度方案快速推荐(分钟级),为防洪“四预”提供支撑。以海河流域“23·7”流域性特大洪水中永定河洪水防御为例,防汛业务人员通过大模型设定实时模拟场景,驱动水文预报模型根据实时降水径流数据和模型参数信息进行滚动预报,得到官厅、斋堂等水库的入流过程预报方案,并预测永定河干流的径流过程;根据预测的水情,水利大模型驱动水库联合调度模型智能推荐官厅、斋堂等水库以及卢沟桥水利枢纽的优化调度方案,使水库群得到合理运用,减小卢沟桥水利枢纽的压力。随后,水利大模型综合考虑预报、调度方案,驱动二维水动力模型对卢沟桥断面以下的洪水演进情况进行计算,验证调度方案产生的淹没情况,评估所做的预报、调度方案合理性,确保所提供的方案在实际应用中具有科学性和有效性。最后,水利大模型根据确定的调度方案匹配修订相应的防洪预案,最大限度降低河道水位,确保洪水快速下泄,减少洪灾损失。通过水利大模型的充分应用,可为防汛决策、蓄滞洪区精准运用等业务场景提供支持。其他水利大模型平台专业计算与智能决策类应用案例见下图。

水利大模型的建设思路、构建框架与应用场景初探

▲专业计算与智能决策类应用示意图

04、结语

本文梳理了水利大模型构建的背景,提出了水利大模型概念,深入分析了水利大模型的重要性和构建的必要性,系统介绍了构建思路与架构,提出了需突破的关键技术,并阐述了水利部在行业大模型构建和应用场景实践方面的探索。介绍了在全国水利“一张图”、水利数字孪生数据底板、模型平台的基础上构建的具备“听懂水利话”的理解能力、“会分解水利任务”的分析能力、“可调用水利专业模型”的计算能力、“可展示推演结果”的显示能力、“可驱动设施装备”的终端能力的水利大模型。未来将面向水利行业不同层级管理主体对水利大模型进行全面推广,通过构建“1+7+X”模式,逐步形成水利领域大模型共建共享共用体系。水利大模型在提高业务效率、降低操作复杂性、促进科学决策制定、普及水利业务知识以及推进数字孪生水利发展方面具有重要作用和意义。建议在水利技术标准体系中增加水利大模型的标准体系建设,加强水利部大模型的试用与推广。通过水利大模型的建设,充分发挥科技创新引领作用,带动水利行业产业转型升级,驱动水利新质生产力发展,为数字孪生水利建设引领水利高质量发展提供重要引擎。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。