引调水工程安全智慧监管多模态大模型构建技术研究

慧聪水工业网 2025-06-24 09:58 来源：中国水利杂志作者：王立虎，等

摘要：随着“天空地水工”一体化感知体系全面建设，引调水工程安全感知数据呈现出多源异构、规模庞大、动态变化等复杂特征，传统的基于单模态数据分析、挖掘方法在工程安全智慧监管场景下面临明显的局限性。融合多模态大模型与知识图谱技术，提出一种“感知—认知—决策”的智慧监管模式。基于标准规范、风险应急管理资料、巡检文本及图像、多光谱遥感影像，微调多模态大模型并结合动态提示策略，构建面向工程安全的多模态知识图谱；利用检索增强生成技术及知识图谱的结构化知识，提升大模型在专业领域的可靠性及推理能力；提出多智能体协同的决策链构建方法，通过动态任务编排实现模型能力耦合，赋能工程安全管理中的风险识别、评估及预案生成业务。实验结果表明，本研究方法的多模态知识提取准确性高，可支撑引调水工程安全智慧监管。

关键词：多模态大模型；多模态知识图谱；安全智慧监管；引调水工程

作者简介：王立虎，博士研究生，主要从事水利大模型研究。

01、研究背景

引调水工程是国家水网的重要通道，是保障国家水安全的重要基础设施。随着“天空地水工”一体化感知体系建设全面推进，引调水工程安全感知数据呈现出多源异构、规模庞大、动态变化等复杂特征。传统的基于单模态数据分析、挖掘技术无法有效整合“天空地水工”多源异构数据的互补优势，难以满足工程安全智慧监管需求。以大模型为代表的新一代人工智能技术是发展水利新质生产力、推进水利业务智能化的突破口和落脚点。2025年全国水利工作会议强调实施“人工智能+水利”行动，构建水利大模型建设应用框架，加强与“2+N”业务应用体系深度集成。

DeepSeek、GPT、GLM等通用大模型具有突出的泛化性、知识涌现性，已成为学术界、产业界关注热点。水利部信息中心组织研发的“上善”水利大模型具备“擅学习、能交互、会计算、可展现”特点；中国长江三峡集团有限公司研发的“大禹”大模型，实现了水电领域专业知识的复杂查询、精准响应，并应用于生产运行、运维检修、项目管理及安全规程等方面；浪潮智慧科技有限公司发布的浪潮安澜大模型，通过整合水利行业相关法律法规、政策文件、灌区地理数据等，构建了都江堰灌区水利综合知识库，凭借DeepSeek实现了灌区知识智能检索与多轮问答；长江设计集团有限公司联合华中科技大学发布的“千手”大模型，实现了水库、大坝监测数据的高效处理与智能预警。

目前，大模型支撑引调水工程安全相关业务主要存在以下瓶颈：①引调水工程安全运行数据涉及图像、文本等多种类型，现有大模型尚未具备充分整合多模态数据互补优势的能力；②大模型存在幻觉、黑箱及推理能力弱等问题，导致其在实际工程应用中存在局限性；③引调水工程风险场景复杂，大模型在面对复杂风险场景时的决策能力有限。

本研究融合多模态大模型与知识图谱技术，提出一种“感知—认知—决策”的智慧监管模式，主要目标如下。

①基于标准规范、风险应急管理资料，巡检文本及图像、多光谱遥感影像，微调多模态大模型，并结合动态提示策略，构建面向工程安全的多模态知识图谱。

②利用检索增强生成技术（Retrieval Augmented Generation，RAG）及知识图谱的高质量结构化知识，提升大模型在专业领域的可靠性及推理能力。

③提出多智能体协同的决策链构建方法，通过动态任务编排实现模型能力的耦合，以及工程安全管理中的风险识别、评估和预案生成业务。

02、工程安全多模态大模型构建

基于标准规范、风险应急管理资料、巡检文本及图像、多光谱遥感影像等数据，构建引调水工程安全领域的多模态大模型，支撑工程安全风险的识别、评估、预案生成任务。引调水工程安全智慧监管多模态大模型技术架构主要包括多模态数据、多模态大模型平台、业务应用三部分。

引调水工程安全智慧监管多模态大模型构建技术研究

▲引调水工程安全智慧监管多模态大模型技术架构

1.多模态数据

（1）多模态数据收集

多模态数据包括标准规范、风险应急管理资料、巡检文本及图像、多光谱遥感影像等。

标准规范数据涵盖水利工程安全相关的国家和行业标准规范，例如《水利部关于开展水利安全风险分级管控的指导意见》《水利水电工程（调水工程）运行危险源辨识与风险评价导则（试行）》等。

风险应急管理资料包括风险防控手册、专项应急预案等，详细描述工程安全管理中的风险类型及相应的应急处置措施。

巡检文本及图像来源于每日工程巡检记录、风险巡检周报，数据模态涉及图像和文本两种，记录工程安全管理过程中的各类风险。

多光谱遥感影像的时间尺度为5天，数据包含13个波段（如蓝光波段B1、绿光波段B2等），覆盖从可见光到近红外的频谱范围。基于不同波段的计算，可获取建筑物沉降、位移等风险信息，并结合经纬度及遥感测量时间，精准定位风险发生的地点和时间。

（2）多模态数据预处理

多模态数据预处理旨在为工程安全智慧监管任务提供统一、规范的输入数据。由于不同模态数据的采集方式、数据结构、时间尺度和语义粒度存在差异，对不同模态数据采取不同的数据预处理策略。对于多光谱遥感影像，首先利用插值法进行影像数据重采样，然后通过线性变换对影像数据进行波段合成，最后进行影像数据的裁剪和地物标注；对于风险应急管理资料、标准规范及风险巡检文本，预处理过程包括分词、去噪、编码转换等；对于风险巡检图像，预处理过程包括图像增强、尺寸调整、空间转换操作等。此外，不同模态数据的样本数量不均衡、样本分布差异明显，影响模型推理效果。为此，引入时空对齐与语义匹配机制，以提升跨模态数据语义空间的一致性。同时，引入模态补齐策略，通过相似度计算的方式补齐缺失数据，缓解数据缺失带来的模型性能问题。

（3）微调数据集构建

利用多模态数据微调大模型，提升大模型在引调水工程安全领域的适用性。在构建微调数据集时，通常将数据组织为多轮对话列表的形式，每轮对话包含指令、输入和输出三部分。其中，指令表示用户对模型的请求或任务描述，输入是指模型接收到的文本或图像，输出表示模型对用户的响应或解答。构建微调训练数据集首先需要对多模态数据进行标签标注，本研究采用正则化匹配的方法对多模态数据中的相关知识进行标注。然后，通过格式转换将其转换为多轮对话列表，作为大模型的输入。以多模态巡检文本及图像为例，标签标注与格式转换的过程如下图所示。

引调水工程安全智慧监管多模态大模型构建技术研究

▲巡检文本及图像的标签标注与格式转换过程示意

2.基础大模型选取与微调

（1）基础大模型选取

引调水工程安全智慧监管涉及风险的识别、评估、预案生成等任务，要求大模型具备较强的问题推理、多模态数据解析、数学计算、内容生成能力。根据公开评测结果，DeepSeek-R1、ChatGLM4、Qwen3、QWQ、QVQ等国产大模型在上述方面能力较强。因此，本研究主要采用上述模型作为基础大模型，各模型的参数规模、支持的数据模态如下表所示。

引调水工程安全智慧监管多模态大模型构建技术研究

▲本研究选用的国产基础大模型

（2）基础大模型微调

LoRA（Low-Rank Adaptation）是一种高效的参数调优技术，该技术能够保持模型大部分参数不变的情况下，仅对两个低秩矩阵进行优化，大幅降低模型微调的计算复杂度。为提升大模型在引调水工程安全领域的适用性，利用多轮对话列表微调基础大模型，本研究基于LoRA技术进行大模型微调。对于语言大模型DeepSeek-R1、QWQ采用自回归语言建模、多任务混合学习等微调策略；对于多模态大模型ChatGLM4、Qwen3、QVQ，采用图文对比学习的微调策略。

3.多模态工程安全知识图谱构建

大模型经过微调后，虽具备一定的领域应用能力，但在数据时效性、推理的可解释性、可追溯性方面仍存在不足。为提升大模型可靠性和推理能力，需构建多模态工程安全知识图谱，作为大模型的外部知识库。知识图谱是一种结构化的语义网络，将不同维度的工程安全知识抽象为实体和关系，实现工程安全知识的结构化表征。进一步，通过RAG技术从知识图谱中检索动态知识，可有效提升大模型响应的可靠性与推理能力。多模态工程安全知识图谱的构建过程包括本体构建、实体和关系抽取、知识图谱三元组存储三个阶段。

引调水工程安全智慧监管多模态大模型构建技术研究

▲多模态工程安全知识图谱构建过程

（1）本体构建

构建知识图谱本体模型，可为知识图谱提供一种标准化、一致化的知识表示形式。从风险防控的目标出发，各类风险信息是识别、评估和处置风险的关键；风险的综合量值与等级可用于优化资源分配、提升决策效率；适用的风险预防和处置措施可以减少事故发生。因此，多模态工程安全知识图谱本体模型主要包含3类概念，即工程安全运行中的各类风险信息、衡量风险综合量值与等级的风险特征、风险的预防及控制措施。多模态工程安全知识图谱中实体和关系的基本定义、本体模型的逻辑关系如下图所示。

引调水工程安全智慧监管多模态大模型构建技术研究

▲实体和关系的基本定义

引调水工程安全智慧监管多模态大模型构建技术研究

▲多模态工程安全知识图谱本体模型的逻辑关系

（2）实体和关系抽取

根据本体定义的概念及关系，利用微调后的大模型与动态提示策略提取多模态数据中的实体和关系。大模型对于复杂的推理任务通常存在可靠性差、准确性不足等问题。动态提示策略旨在大模型推理过程中实时调整输入指令或上下文信息，有效提升模型在复杂场景下的适应能力。融合大模型与动态提取策略的实体和关系抽取方法如下。

①动态提示模板构建。多模态工程安全知识图谱构建的动态提示模板主要包含角色、上下文、约束、输出格式4个部分。其中，角色是为了明确大模型的任务身份，增强指令的遵循性；上下文是指与任务相关的背景或细节描述；约束是给出推理任务的硬性要求，以保证大模型输出的规范性、可用性；输出格式明确了输出规范，便于后续的自动处理或解析。

引调水工程安全智慧监管多模态大模型构建技术研究

▲多模态工程安全知识图谱构建的动态提示模板

②实体和关系抽取。根据本体定义的概念及关系，抽取多模态数据中的16种实体、13种关系。本研究融合大模型与动态提示策略，将实体和关系抽取任务拆分为通用提取、实体提取、关系提取共3个模块。通用提取模块是根据输入数据的来源，将该数据中可能出现的实体类型作为上下文，使用[CLS]与[SEP]分隔符将提示与问题合成指令输入大模型，获取输入数据中的实体类型；实体提取模块是根据要提取的实体类型，将可能的实例作为大模型的上下文，获取输入数据中的各类实体；关系提取模块是根据获取到的各类实体，将实体间的潜在关系作为上下文，进而获取输入数据中的实体关系三元组。融合大模型与动态提示策略的风险实体及关系提取过程如下图所示。

引调水工程安全智慧监管多模态大模型构建技术研究

▲融合大模型与动态提示策略提取巡检数据中的风险实体及关系

（3）知识图谱三元组存储

本研究采用Neo4j图数据库存储知识图谱三元组。对于知识图谱中的风险实体e，构造一个图节点ne，以实体名作为ne的标签，每个图节点由唯一的标识符（如ID或URI）来标识。对于两个实体之间的关系r，构造一个有向边nr，以两实体间的关系类型作为nr边标签，以关系权重作为nr的属性。所有的知识图谱三元组都可以表示为＜实体，关系，实体/属性值>。

4.基于多模态知识图谱的检索增强生成

利用RAG技术从多模态知识图谱检索结构化动态知识，可以提升大模型的可靠性及推理能力。下图给出了基于多模态知识图谱的检索增强生成过程，主要包含知识库构建、知识检索与生成两个部分。

引调水工程安全智慧监管多模态大模型构建技术研究

▲基于多模态知识图谱的检索增强生成

（1）知识库构建

将多模态知识图谱三元组向量化，构建为大模型的外部知识库。本研究采用“实体-子图”的双层嵌入策略，实现知识图谱的向量化。双层嵌入策略是结合实体和子图两个层面，在子图层面保持较大的知识单元，提供丰富的上下文信息，在实体层面确保精准的语义匹配，旨在平衡精准匹配与全面的上下文信息。

（2）知识检索与生成

检索外部知识库并将检索结果作为大模型的上下文，提升大模型推理的可靠性。给定用户问题，首先通过“实体-子图”的双层分片结构，进行实体层面的语义相似性计算，并根据计算结果获取对应的上下文信息；然后，将检索的前5项结果作为提示信息，与用户问题结合共同作为大模型的输入；最后，大模型根据输入数据进行推理，实现问题响应与内容生成。

5.多智能体协同的智能决策链构建

为提升大模型对复杂业务的处理能力，需构建多智能体协同的智能决策链。多智能体协同是指通过多个具备感知、决策、执行能力智能体的动态交互与组耦合以完成各项复杂任务。当面对引调水工程安全监管中复杂、多阶段的应急决策场景时，大模型需要灵活接入各类外部服务。本研究提出面向引调水工程安全的智能决策链构建技术，通过目标规划、任务拆解、模型编排、流程迭代等关键步骤，有效提升大模型的应急决策能力。

引调水工程安全智慧监管多模态大模型构建技术研究

▲多智能体协同的智能决策链构建过程

（1）智能体构建

构建面向引调水工程安全的智能体，首先需要明确智能体的角色类型。本研究所构建的智能体包含场景判定、资源调度、人机交互、反馈优化4种通用角色，以及风险识别、风险评估、预案生成3种特定角色。其次，需明确各智能体之间的通信及调度机制，保障智能体的高效协作能力。本研究采用提示工程与共享空间相结合的方式，实现智能体的通信与调度。其中，提示工程通过设计规范化的提示模板，使上游智能体以自然语言/结构化方式生成调用请求，传递给下游智能体；共享空间通过建立外部独立、内部共享的读写空间，使所有内部智能体均可读取历史任务状态、指令、上下游输入输出等。

（2）决策链设计

设计多智能体协同的智能决策链需要明确业务目标、流程、数据资源等。本研究利用风险应急决策方案、标准规范、工程巡检数据，按照风险识别、风险评估、预案生成等步骤，实现工程安全智慧监管。进一步，通过建立反馈机制实时评估各智能体的决策过程，优化决策链的正反算逻辑，本研究采用人工与自动化相结合的实现方式。一方面，设定模型的预期输出结果，将实际输出与预期结果作比较，给出评价反馈，用于反向调优决策链；另一方面，在应急方案生成等关键决策环节，采用专家打分、排序等方式进行人工审阅和确认。

6.支撑业务应用

为实现大模型驱动的工程安全智慧监管，本研究构建风险识别、风险评估、预案生成的智能决策链。风险识别决策链分析多模态工程安全数据，识别其中的各类风险，并结合多模态知识图谱分析当前风险引发的潜在风险；风险评估决策链分析不同风险的概率性、严重性，并根据行业标准确定风险的综合量值与等级；预案生成决策链分析不同风险的应急处置措施，并生成应急预案。风险识别、风险评估和预案生成的模型编排与流程设计逻辑见下图。

引调水工程安全智慧监管多模态大模型构建技术研究

▲模型编排与流程设计逻辑

（1）风险识别

记录工程安全风险的多模态数据主要包括图像、文本。对于图像数据，智能决策链首先调用图像分析模型，获取与当前图像相似度较高的历史图像，并提取其风险描述信息；然后，基于提示工程将描述信息作为视觉大模型的上下文，辨识图像中的风险信息。对于文本数据，结合思维链策略与文本大模型，逐步识别文本中的风险信息。在此基础上，对多模态知识图谱进行检索，获取图谱中风险因子、风险事件、风险后果间的关联关系，分析当前风险的潜在驱动因素或可能引发的相关风险。

（2）风险评估

基于引调水工程安全行业标准，设计面向工程安全风险评估的智能决策链。首先，智能决策链执行知识检索，获取存储在多模态知识图谱中的风险严重度；其次，调用概率统计模型，通过计算不同风险的发生次数与样本总数比值，确定不同风险的发生概率；最后，调用风险矩阵模型，计算风险严重度与发生概率的乘积，获取风险的综合量值，并根据多模态知识图谱中风险量值区间与风险等级的对应关系，确定风险等级。

（3）预案生成

对于预案生成，智能决策链需针对不同风险，生成不同的应急预案。首先，根据不同的风险事件，检索与该风险相关的历史案例以及风险处置的行业标准、业务规则，形成大模型的上下文信息；然后，文本大模型结合问题信息与上下文信息，生成符合当前场景的应急响应方案；最后，结合风险响应方案与应急预案模板，通过预案生成模型完成应急预案的构建与生成。

03、模型验证与分析

1.评估指标

本研究利用精确率（P）、召回率（R）和F1作为评估指标，对本文模型进行有效性评估。其中，精确率衡量模型的分析结果中有多少是正确的，召回率衡量模型正确分析结果的样本覆盖度，F1值为精确率、召回率的调和平均值，用于评估模型的综合性能。精确率、召回率和F1的值越大，表示模型性能越好。精确率、召回率和F1分别定义如下：

引调水工程安全智慧监管多模态大模型构建技术研究

式中，TP表示分析结果正确的正样本数量，FP表示分析结果错误的正样本数量，FN表示分析结果错误的负样本数量。

2.结果与讨论

（1）知识抽取结果分析

知识抽取是一种检验大模型掌握和运用领域知识能力的方式。本研究构建的多模态大模型不仅能够利用图像、文本等工程安全管理数据抽取实体和关系，还通过“微调+动态提示”的方式进一步提升知识抽取准确率和计算效率，下表给出了不同模型在多模态数据上进行知识抽取的结果。在模型准确性方面，可以发现DeepSeek-R1结合微调与动态提示策略，识别精确率、召回率、F1均值分别达到0.832、0.826、0.827，识别准确性最优。实验结果说明，利用领域数据微调后的DeepSeek-R1更加理解工程安全风险的相关概念和逻辑，在微调的基础上结合动态提示策略，通过实时调整输入指令或上下文信息，进一步提升了模型在复杂场景下的适应能力。在模型效率方面，可以发现推理模型DeepSeek-R1、QWQ、Qwen3的总体效率低于ChatGLM4模型。这是由于推理模型采用了混合专家、长链思维等策略，使推理过程更加复杂，模型的计算效率更低。本研究基于微调与动态提示策略，通过输入上下文信息引导模型快速聚焦当前任务的语义空间，使其能够在保持复杂推理能力的同时，实现更具针对性的快速响应。

引调水工程安全智慧监管多模态大模型构建技术研究

▲不同模型在风险识别任务上的实验结果

（2）知识图谱构建结果分析

本研究利用多模态数据构建了引调水工程安全知识图谱。工程安全知识图谱主要包含风险事件、风险类型、风险点、控制措施、处置措施等实体。其中，某风险点（见下图）输水渠道面临衬砌板隆起、渠道渗漏、渠坡失稳等风险事件，衬砌板隆起可诱发渠道渗漏，而渠道渗漏可能导致渠坡失稳，呈现出明显的链式传播关系。此外，针对渠坡失稳的控制措施包括：采用块石、编织袋等对渠堤外坡进行防护，配合调度运行降低上游渠道的运行水位，在一级马道外侧植入钢管桩，以及采用防水膜覆盖变形体外露区域等。在工程安全监管过程中，上述知识可用于辨识潜在隐患，评估风险的综合量值水平，生成不同风险的应急处置措施。

引调水工程安全智慧监管多模态大模型构建技术研究

▲引调水工程安全知识图谱某风险点分析

（3）风险识别结果分析

对工程安全运行过程中的各类风险进行识别，并结合知识图谱的拓扑结构辨识潜在风险，4类风险的识别精确率、召回率和F1值如下表所示。可以看到，4类风险的识别精确率、召回率和F1的平均值分别为0.893、0.724和0.838。其中，人为风险的识别效果最差，管理风险的识别效果最优。不同风险的关联关系如下图所示，图中节点的大小表示节点度，即与该节点相连的边数量，两节点间的边宽度表示关系权重。可以看到，风险节点“衬砌板裂缝”“衬砌板下滑、隆起”“一级马道产生纵向裂缝”的节点度较高，表明与这些风险节点相连的节点较多，即由该风险引发的其他风险或对该风险产生影响的风险较多。通过对比可以发现，“衬砌板裂缝”与“衬砌板下滑、隆起”之间的关系权重高于“衬砌板裂缝”与“一级马道产生纵向裂缝”之间的关系权重，这表明当“衬砌板裂缝”事件发生时，“衬砌板下滑、隆起”的事件发生概率要高于“一级马道产生纵向裂缝”。在工程安全监管过程中，应加强关注节点度较大的风险事件，以减少潜在隐患。考虑到不同风险之间的关联强度不同，应建立差异化管理机制，提升管理效率与能力。

引调水工程安全智慧监管多模态大模型构建技术研究

▲四类风险事件实体知识融合的准确率水平

引调水工程安全智慧监管多模态大模型构建技术研究

▲知识图谱中风险事件的关联关系

（4）应急预案生成结果分析

多模态工程安全大模型根据风险识别和分析结果，针对可能发生的事故生成专门的应急预案。考虑到风险情景的不确定性，用户可以要求大模型推荐多个方案供参考，并根据方案的适用性进行排序，生成应急预案集合。使用历史风险处置案例进行测试，观察在不同集合大小的设定下，应急预案集合是否包含正确的处置方案，对大模型的预案生成能力进行定量评价。下表给出了推荐集合的前1、3、5个方案命中正确方案的精确率、召回率和F1值。可知，本研究方法生成风险应急预案的精确率、召回率和F1总体高于0.7。其中，正确方案位于推荐方案集合首位的准确率为0.723，位于前3的准确率为0.743，位于前5的准确率为0.754。在工程安全监管过程中，可根据现场资源与响应需求动态设定“仅采纳首选方案”或“多方案并行”策略，实现“快速预案+人工审定”的人机混合决策流程，既可以保证推理效率，又兼顾安全与合规。

引调水工程安全智慧监管多模态大模型构建技术研究

▲推荐集的前1、3、5个方案为正确方案的评估指标值

（5）面向工程安全的多模态大模型平台

本研究利用Ollama平台发布引调水工程安全智慧监管大模型，并基于Dify平台将多模态大模型集成至业务工作流。以风险事件“边坡开裂、垮塌”为例进行多轮问答，大模型响应结果如下图所示。可以看到，本文所构建的多模态大模型可以准确识别巡检文本中的风险地点“截流沟”和风险事件“边坡开裂、垮塌”。同时，也识别到了巡检图像描绘的风险信息，提取了风险事件。在此基础上，评估了该风险影响的多个渠段，以及对应的风险等级。最后，多模态大模型根据检索到的知识库内容，生成了“边坡开裂、垮塌”的风险基本特征、风险量值、风险控制措施等。

引调水工程安全智慧监管多模态大模型构建技术研究