韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

慧聪水工业网 2024-08-28 10:25 来源:环境工程

摘要:短程硝化-厌氧氨氧化(PNA)与短程反硝化-厌氧氨氧化(PDA)工艺的脱氮性能会受到许多参数的影响。在综合考虑各种参数的基础上对2种工艺的脱氮性能进行预测,并识别关键参数,能够为其实际工程应用提供优化目标。解决上述问题时,实验方法耗时耗力,而传统数学模型难以处理非线性关系。因此本研究采用机器学习技术,所构建的随机森林(RF)机器学习模型对2个工艺的出水总氮(TN)浓度进行了高精度预测,对PNA和PDA工艺出水TN浓度预测结果的决定系数(R2)分别为0.728、0.812。SHAP方法能够较好地解释模型的预测过程,并对各参数进行了重要性排序。在PNA工艺中,出水TN浓度主要受到进水TN浓度及COD浓度的影响。在PDA工艺中,出水TN浓度首先受进水TN浓度及氮负荷的约束。在此基础上,进水COD浓度作为另一重要因素影响工艺的出水TN浓度。进水COD浓度在2个工艺中的共同重要性表明2种工艺在实际应用时需要预先做好污废水中碳源的管理与分配,预分离与应用策略非常重要。研究采用机器学习模型为PNA与PDA工艺脱氮性能的预测提供了方法指导,基于SHAP的模型解释为2种工艺在实际应用时的关键参数识别与优化提供了选择依据。

研究背景

能源密集型的传统硝化-反硝化生物脱氮工艺在面对总氮(TN)超低排放的目标时由于需要大量的外部碳源投入而表现出局限性。厌氧氨氧化(Anammox)工艺是一种创新的替代方案。其具体是指在厌氧条件下,厌氧氨氧化细菌(AnAOB)利用NO2--N作为电子受体,NaHCO3或CO2作为无机碳源,将NH4+-N直接氧化为N2的过程,并产生约等于11%TN的NO3--N。相比于传统硝化-反硝化工艺,Anammox工艺能够减少约60%的曝气能耗,无需外加有机碳源,且无温室气体(N2O和CO2)的排放。由于AnAOB为自养型微生物,该工艺还能够减少约90%的污泥产量,是公认的节能环保新型脱氮工艺。Zhang等的研究表明,实施主流Anammox工艺可以使污废水处理厂的总能源节约10%以上。但由于Anammox反应独特的氮转化路径使得其需要与其他氮转化过程耦合以构建适宜于Anammox的底物比例条件。目前,短程硝化-Anammox(PNA)与短程反硝化-Anammox(PDA)是实现Anammox技术应用于实际污废水处理的2种有效耦合工艺。

PNA与PDA工艺具有各自的特点与优势。PNA工艺通过短程硝化(PN)实现NO2--N的积累,而后与剩余NH4+-N进行Anammox反应完成TN的大部分脱除。其反应路径简洁,并且整个过程完全自养,无需任何有机碳源的输入。但亚硝酸盐氧化细菌(NOB)无法被完全抑制会导致NO2--N的积累不稳定从而使整个工艺的脱氮性能受到限制。PNA工艺理论上的最高TN去除率约为89%,无法实现TN深度去除的目标。PDA工艺利用部分反硝化(PD)实现NO2--N的积累,绕开了抑制NOB活性的操作,NO2--N积累过程更加稳定。具有反硝化功能微生物的参与可以将Anammox反应产生的NO3--N进一步去除,理论上可以实现TN的近零排放,这取决于反应动力学的控制。在面对高NH4+-N比例的废水时,使用PDA工艺脱氮首先需要将50%左右的NH4+-N完全氧化为NO3--N,再通过PD反应将其还原为NO2--N,这与PNA工艺相比无疑更加复杂,也增加了工艺的操作与管理难度。郝晓地等认为,PDA工艺似乎违背了Anammox发展之初的少耗氧、不消耗COD的可持续理念,相比于PNA工艺,其不具有可持续性。综上所述,2种工艺在实际工程应用时需要结合污废水水质以及工艺目标进行严谨的比选。除此之外,PNA与PDA工艺的脱氮性能会受到许诸多因素的影响,这些因素包括具体的水质特征(如进水TN浓度、进水COD浓度、COD/TN、溶解氧等)以及操作参数(如水力停留时间、进水氮负荷等)。在以往的研究中,通过实验方式针对2种工艺的影响因素进行的探索与调控,一方面,实验室研究通常仅针对单一因素进行考虑,无法评价多因素的交互作用,并且,基于实验条件的不同研究结论可能并不具有普适性;另一方面,在工程平台上每项参数的调控尺度会被放大,在目标值附近产生一定的波动,每项操作都需充分考虑经济效益与管理难度,这一点与实验室水平的工艺单元运行有很大的不同。因此,在考虑各项参数交互作用的基础上进行参数重要性的评估以及通过水质和操作参数进行工艺脱氮性能的预测就显得尤为重要。对不同污废水使用PDA或PNA工艺脱氮的性能进行预先判断,并在众多可进行优化的参数中找到决定性因素,从而以低投入获取高可行性与稳定性,为PNA及PDA工艺拓展到更多实际污废水工况中的应用提供途径选择借鉴。

上述的多因素综合分析属于复杂问题,通过实验手段会耗费大量精力及经济投入,因此,有必要使用不同于实验的研究方法解决上述问题。PNA与PDA工艺中涉及到复杂的生化反应过程,各项参数与脱氮性能之间的关系往往是非线性的,如何准确、高效地识别各项参数之间的关系并进行脱氮性能的预测也需要新方法的支持。机器学习技术在处理交互影响及非线性问题时具有其独特的优势。近年来,其在水处理中的应用不断被拓展。例如,Liu等采用大数据分析和模型技术结合的方式,构建了支持向量机和人工神经网络2种机器学习模型来预测不同Anammox工艺中的N2O排放量,对Anammox工艺N2O减排提出了指导性建议。Lv等将因子分析与机器学习模型相结合,对郑州市某污水处理厂的出水污染物进行预测,确定了影响污染物浓度的主要因素,为污废水处理厂及早发现潜在问题提供了预警措施。上述研究为机器学习技术应用于PNA与PDA工艺的脱氮性能预测提供了先导案例,使我们可以尝试将机器学习拓展到PNA与PDA工艺的相关研究中。然而,机器学习技术虽然强大,但其本质上属于黑箱模型,即只强调输入变量和输出结果而不涉及内在机理。因此,即使在模型成功构建后也需要配合模型解释技术来对模型的输出进行更加明确的阐明。

基于上述分析,本研究利用随机森林(random forest,RF)与梯度提升决策树(gradient boosting decision tree,GBDT)2种集成算法模型,来拟合PNA与PDA工艺中各项参数与出水TN浓度之间的关系,进行脱氮性能的预测。通过SHAP分析模型解释的方法分析各项输入参数对于脱氮性能的影响权重,从而评估各项参数的重要性,以期为PNA与PDA工艺实际应用时的关键优化参数选择提供依据。

01 数据和方法

1. 数据来源

通过Web of Science和Google Scholar数据库综合检索Anammox相关的实验性文章。分别以“PNA工艺”与“PDA工艺”为关键词对文章进行初步筛选,首先把时间区间限定为2019年及以后(近5年),中科院分区限定为二区及以上,以保证数据的可靠性与新颖性,而后对文章进行逐一审查,具体审查内容如下:1)实验期间反应器运行的基本进出水水质数据必须明确(非范围值)且一一对应,以此保证数据集构建时各参数的连续性,避免某一参数缺失值过多。2)为了使研究工作的样本更加贴近实际污废水,并且能够考察碳元素的作用机制,所选文章必须包含反应器进出水COD浓度的相关数据。3)限定PNA工艺中进水氮元素的形态为NH4+-N;PDA工艺中进水氮元素的形态为NH4+-N与NO3--N,使氮元素的初始形态与工艺原理相对应,同时研究边界更为明确。综合全过程,筛选出PNA工艺的相关研究论文6篇;PDA工艺的相关研究论文8篇。通过Origin软件从文章中提取样本数据,包括进水NH4+-N、进水NO3--N、进水COD、出水NH4+-N、出水NO2--N、出水NO3--N、出水COD、水力停留时间(HRT)、溶解氧(DO)等,共1109组样本。使用样本构建2个数据集,PNA工艺共439个样本,PDA工艺共670个样本。需要特殊说明的是,由于所筛选的文章中pH与温度(T)并非实验过程中所考察的主要变量,大多设置在合理区间内且以范围值而非准确值的形式给出,因此并未将pH与T2个参数归纳入数据集中。利用收集的数据计算进水氮负荷(NLR)、TN去除率(NRE)、TN去除负荷(NRR)、COD去除率(CRE)等参数用以后续分析。

2. 数据分析

1)计算公式。

采用式(1)—(6)来计算NLR、NRE、NRR、CRE等参数。

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

2)相关性分析。

Spearman相关系数矩阵是一种用于评估变量之间非线性关系的统计方法。与Pearson相关系数不同,它是基于数据的排名而非具体的数值,通过比较变量之间的排名来衡量变量之间的相关性,可以用于非正态分布数据的相关性分析。本研究中使用Spearman相关系数分别对PNA和PDA 2个数据集中的各项参数进行相关性检验,以获取不同参数之间的内在关联。同时对各参数之间的相关性进行显著性分析,P<0.05标记为∗;P<0.01标记为∗∗。

3. 机器学习模型的建立

本研究选取RF及GBDT模型用以研究工作。RF与GBDT均是基于集成学习思想所构建的模型。其相似点在于将多个弱学习器组合起来,形成一个强学习器,以此来提高预测性能。RF与GBDT均以单个决策树为基础模型,决策过程清晰易懂且不过分依赖数据分布,使得它们非常适合处理具有复杂分布的实际数据。多个决策树的组合可以有效降低模型的误差率,减小过拟合和欠拟合的风险,提高泛化能力。二者的不同点在于,RF模型的主要思想为“bagging”,每个决策树都是独立训练的,最终的结果是通过对所有决策树的结果进行平均或多数投票得出的。而GBDT主要思想为“boosting”,即进行多次迭代,通过逐步修正前一步的错误,不断累积小的改进,最终构建出性能卓越的预测模型。机器学习模型构建的过程均在R Studio(version 4.3.2)中进行。建模过程包括数据预处理、模型训练与超参数优化、模型评价等步骤。

1)数据预处理。

数据预处理过程包括异常值剔除、缺失值处理、特征编码与数据集的拆分。通过对数据集进行检验,纳入模型预测的特征并没有缺失值,因此,不需要进行缺失值的填充。由于所有的特征均为连续型变量,不需进行特征编码。由于本研究中的样本来源于文献中实际反应器的运行数据,在反应器启动及状态切换阶段偶尔运行效果会产生较大波动。结合具体文献对该情况下的异常值进行手动剔除。为了减小预测误差,同时使模型具有更好的泛化能力,将PDA数据集随机划分,70%作为训练集,30%作为测试集。但对于PNA工艺,70%数据作为训练集时预测模型的效果不佳,需要针对性地调整为80%数据作为训练集,20%数据作为测试集,使模型具有更多的样本可以训练。

2)模型训练与超参数优化。

模型训练以及超参数优化过程均在训练集上完成。本研究中选取出水TN浓度作为预测目标,同时也是预测模型的输出变量。基于数据集维度以及PNA与PDA工艺的性质特点,用于预测PNA工艺出水TN浓度的模型选取HRT、进水TN浓度、进水COD浓度、COD/TN作为输入特征。同时考虑DO对于短程硝化阶段的重要性,将DO也纳入模型的输入特征之一;用于预测PDA工艺出水TN浓度的模型选取HRT、进水TN浓度、进水COD浓度以及COD/TN、COD/NO3--N、COD/NH4+-N、NO3--N/NH4+-N 4个包含水质信息的比值参数作为输入特征。

本研究使用交叉验证和网格搜索的方法对模型超参数进行优化。对于GBDT模型的超参数寻优,采用“caret”包中的“train”函数来实现,该函数提供了支持GBDT模型超参数寻优的方法,在定义超参数网格后可以直接调用“train”函数来完成超参数寻优。交叉验证的折数设置为10折,优化的超参数为决策树数量、决策树最大深度、学习率以及最小叶子节点样本数。对于RF模型的超参数优化,由于“train”函数在使用RF方法时只支持分裂节点时考虑的特征数量这1个超参数的调整,为了同时调整决策树个数与最小叶子节点样本数,使模型更加精准可靠,故没有采用“train”函数进行模型的训练,而是构建“for”循环来实现相应目标。

3)模型性能评价。

经过训练及超参数优化后的模型在测试集上执行预测任务并进行模型准确性的评价。由于构建的是针对连续变量的回归预测模型,故选取决定系数(R2)、均方根误差(RMSE)和平均绝对误差(MAE)评估模型预测性能与准确性。3个指标的具体计算方法分别如式(7)—(9)所示。

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

4. 基于SHAP方法的模型解释

SHAP是由Lundberg等提出的一种基于博弈论的模型解释方法,旨在评估每个特征对于模型预测的贡献程度。其核心思想是计算每个特征在不同组合中的贡献值,并将这些贡献值进行加权求和。具体而言,它通过比较包含特定特征的模型预测与在排除该特征(即该特征被视为不可见)后模型的预测差异来评估每个特征的贡献。在移除1个特征之后,模型表现的变化反映了剩余特征的组合作用。考虑到特征之间可能存在的交互作用,SHAP通过对所有可能的特征子集组合进行计算,确保每个特征贡献的评估是全面和准确的。这种方法不仅为模型的每次预测提供了透明度,而且还帮助识别各输入变量在预测过程中的具体作用。本研究中使用SHAP分析对RF模型的输出进行解释,并根据其结果进行各项输入参数的重要性排序,以评估各项参数对于出水TN浓度预测的影响。

02 结果与分析

1. 数据集的统计信息

1)数据分布。

PNA与PDA数据集的进出水TN浓度的描述性统计如图1所示。可知:数据集中PNA工艺的进水TN浓度分布较为广泛,在52~610 mg/L。相比之下,PDA工艺的进水TN浓度分布在24~313 mg/L,其上限与下限均低于PNA工艺。对于出水TN浓度,PNA工艺最高达到了300 mg/L以上,这是因为在PNA数据集中,有部分样本的进水TN浓度较高且系统的脱氮性能不佳导致出水TN浓度偏高。但从图1b可以看出,PNA工艺的出水TN浓度为25 mg/L附近具有很宽的截面,表明大多数样本的出水TN浓度分布在25 mg/L附近。同时图1b中PDA工艺的出水TN浓度相比PNA工艺分布较为集中。2种工艺出水TN浓度的中位数分别为13 mg/L(PDA)与48 mg/L(PNA)这在一定程度上说明在数据集范围内,以出水TN浓度作为评价指标时,PDA工艺相比PNA工艺具有更加良好的脱氮性能,这与Liu等的研究结论相一致。

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

图1 数据集中PNA和PDA工艺进、出水TN浓度

2)相关性分析。

通过相关性分析检验各参数与出水TN浓度之间的相关性。在PNA工艺中(图2a),与出水TN浓度相关性最强的参数为出水NH4+-N浓度(r=0.94),极强的正相关关系表明PNA工艺的出水TN中NH4+-N占比较高,控制出水NH4+-N可能是实现TN低浓度排放的关键。NRE与出水TN浓度表现出了较强的负相关关系(r=0.80)。然而这2个参数均为与出水有关的参数,在进行出水TN浓度的判断或预测时,我们更加希望通过已知信息(与进水或操作条件有关的参数)来实现,而进水TN浓度、进水COD浓度这2个参数与出水TN浓度并无强正相关关系(r分别为0.50与0.45)。COD/TN、DO与出水TN浓度无显著相关关系。PDA工艺的相关性分析中(图2b),作为后续机器学习模型输入的7个参数与出水TN浓度之间无较强的相关关系,因此,在相关性分析的基础上利用已知信息通过构建传统数学模型如多元线性回归可能并不能很好地对出水TN浓度进行预测。

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

图2 PNA与PDA工艺参数间的相关性热图

2. 机器学习模型对PNA工艺脱氮性能的预测

1)模型性能。

经网格搜索和交叉验证后的模型超参数取值如表1所示。采用R2、RMSE和MAE评价模型的最终性能(表2),采用散点图的形式呈现模型最终的预测结果(图3)。由表2可知:RF与GBDT模型对于PNA工艺出水TN预测结果的R2均>0.7,但RF模型的预测精度更优于GBDT模型。RMSE和MAE 2个指标数值较大,这是因为PNA数据集中进出水TN浓度均较高,当对出水TN浓度较高的样本进行预测时,其产生的偏差对于模型整体性能指标的影响是较大的。图3中可以看出,模型对于出水ρ(TN)>100 mg/L的样本进行预测时结果具有较大偏差,这些偏差会对最终的RMSE和MAE的计算产生较大贡献。但就R2这一参数而言,模型在对PNA工艺脱氮性能的预测上体现出了一定的准确性。

表1 PNA工艺出水TN浓度预测模型的超参数优化结果

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

表2 PNA工艺出水TN浓度预测模型的性能参数

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

图3 RF和GBDT模型对PNA工艺出水TN浓度的预测结果

2)模型解释。

由于RF模型预测精度更高,使用SHAP方法对RF模型进行解释,获取各变量的重要性排序,结果如图4a所示。可知:重要性排序最高的参数为进水TN浓度,说明系统的出水TN浓度极大程度的取决于进水TN水平。重要性排序第二的为进水COD浓度,高浓度COD会使Anammox反应受到严重抑制,这种抑制具有2种不同的机制。一方面,高浓度的COD会促使系统中的异养菌反硝化细菌过度生长,从而与AnAOB竞争底物NO2--N,使得AnAOB的生长受到限制,从而降低系统的脱氮性能。另一种机制则是在高浓度COD条件下,AnAOB仍然是系统中的优势物种,但其执行不同的代谢途径,使用有机物而非NH4+-N作为底物。在这种情况下,受到抑制的实质上是AnAOB的氮代谢能力。除了上述2种机制外,当COD的组成中含有毒性有机物时,如酚类、醛类、抗生素等,毒性物质会通过微生物中毒及酶灭活的方式来抑制AnAOB的活性从而影响Anammox反应,并且这种抑制通常是不可逆的。综上,COD对Anammox的抑制同时与浓度和组成有关。因此可知,使用PNA工艺进行脱氮时预先做好碳源管理是非常有必要的。重要性排序第三为DO,其全局重要性与COD/TN参数相差不大,这2个参数更可能是对系统脱氮性能精细化控制的参数,即DO与COD/TN的小范围波动不会对出水TN浓度产生严重影响,但准确把控有助于进一步的优化脱氮性能。重要性排序最低的参数为HRT,由相关性分析结果可知,PNA数据集中进水TN浓度和NLR具有极强的正相关关系,而NLR为进水TN浓度与HRT的比值,这也就意味着在PNA数据集中HRT这一参数的取值及分布较为集中,预测模型从这一参数中学习到的有用信息较少,导致了最低的变量重要性。图4b蜂群图给出了每个样本的SHAP值。可知:当样本的进水COD浓度与DO浓度较高时,其对应的SHAP值多为正,即对出水TN浓度预测时的贡献为正。也就是说,进水COD浓度与DO浓度较高时,模型判断其对应的出水TN浓度升高,即系统的脱氮性能下降。

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

图4 PNA工艺出水TN浓度预测模型的SHAP分析结果

3. 机器学习模型对PDA工艺脱氮性能的预测

1)模型性能。

经网格搜索和交叉验证后的模型超参数取值如表3所示。仍然采用R2、RMSE和MAE评价模型的最终性能(表4),采用散点图的形式呈现模型最终的预测结果(图5)。对于PDA工艺,RF模型的预测精度仍然高于GBDT模型,(R2分别为0.812与0.753)。对比PNA工艺,2个模型对于PDA工艺出水TN浓度的预测精度有所提升,并且RMSE和MAE2个指标的数值有了大幅下降。造成这种现象的原因可以归纳为以下3点:1)数据分布的不同,PNA工艺的样本进出水TN浓度分布较为分散且最大值与最小值之间差异明显,这会对模型性能产生一定影响。2)样本量的限制,用于构建PDA工艺预测模型的训练样本量较多,使得预测模型可以更充分地捕捉数据之间的规律,导致这2个工艺的预测模型性能之间的差异。3)模型输入参数的差异,基于数据集维度的不同,PDA工艺预测模型的输入参数数量多于PNA工艺的预测模型,更多的输入参数提高了模型的复杂度,也使得模型可以获取更多有效信息从而提高预测精度。由图5可以看出,2个模型对低出水TN(<20 mg/L)的样本预测准确性较高。由于PDA工艺的构建目标就是为了降低TN浓度,当出水TN浓度较低时,系统的各项参数可以控制在较为合理的范围内,参与氮转化反应的功能微生物如反硝化细菌、AnAOB等充分发挥其功能。此时,系统运行时扰动可能较小,干扰因素被有效控制。这些条件的作用效果反映在数据层面上是参数之间的内在关系更为明确,干扰信息被排除,模型在构建过程中更加有效的利用了已知信息,使得结果更加精确。结合2.2.1节的结果可以发现,2种集成学习模型尤其是RF模型在拟合Anammox相关工艺中各项参数与出水TN浓度之间的关系时准确性较高,并不过分依赖于参数间的相关关系,得益于集成学习将多个弱学习器有效整合,更加充分地获取数据中的有效信息。当传统数学模型难以给出精确的参数间函数关系时,基于决策树的机器学习模型通过综合多棵树的结果能够给出较为准确的预测值。

表3 PDA工艺出水TN浓度预测模型的超参数优化结果

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

表4 PDA工艺出水TN浓度预测模型的性能参数

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

图5 RF和GBDT模型对PDA工艺出水TN浓度的预测结果

2)模型解释。

使用SHAP方法对RF模型进行解释后,得出的变量重要性排序如图6a所示。可知:HRT与进水TN浓度为重要性排序中最高的2个变量。HRT对于脱氮系统的影响是双向的。一方面,延长系统的HRT通常可以获得较好的出水水质,但从提高氮去除负荷的角度来看这种操作可能具有反向影响。在工程中,HRT的选择实际是在出水水质与经济效益特别是基建投资之间进行博弈,因为HRT的选择直接影响到了池容,进而影响到占地面积与土建投资。要对高HRT所带来的环境收益与经济投入之间做出权衡。HRT与进水TN浓度共同决定了PDA工艺的NLR,说明NLR对于出水TN浓度的影响是至关重要的。重要性排序第三的参数为进水COD浓度。COD浓度对于PDA工艺出水TN浓度的影响可能是双向的。从PD角度来看,COD作为电子供体需要保持一定的浓度以保证NO2--N的充足供应;但从Anammox反应的角度来看,COD对于Anammox反应以及AnAOB是具有抑制作用的。图6b蜂群图显示PDA工艺样本的进水COD浓度较高时,对应的SHAP值一部分为正,另一部分为负,即COD浓度较高时可能导致较高的出水TN浓度,也可能使出水TN浓度有所下降,这种复杂的关系被模型所识别并通过SHAP分析得以呈现。

韦朝海教授团队:基于机器学习的短程硝化/短程反硝化-厌氧氨氧化工艺脱氮性能预测与关键参数识别

图6 PDA工艺出水TN浓度预测模型的SHAP 分析结果

在SHAP分析中发现,NO3--N/NH4+-N的重要性相对较低。通常在Anammox的相关研究中,NO2--N/NH4+-N被认为是一个非常重要的参数,以1.32∶1为最佳比例。PDA工艺中,NO3--N作为NO2--N的来源其与NH4+-N的比值理应是一个比较重要的参数,但SHAP分析的结果并非如此,一种可能的原因是由模型本身决定的。几项重要的输入参数已经可以让模型构建1个较为完整的拟合系统,而通过NO3--N/NH4+-N这一参数能学习到的有效信息较少,因此该参数具有最低的重要性。另一方面可能是由脱氮系统所决定,PDA系统复杂的功能微生物及氮代谢途径使得其具有平衡体系内NO3--N与NH4+-N比例的能力。Tao等对其构建的PDA工艺系统的微生物群落结构进行了分析,Proteobacteria为最主要的门,亚硝化细菌、硝化细菌以及反硝化细菌均属于该门中的微生物。在属水平微生物中检测到了亚硝化细菌的存在,说明该系统具有亚硝化的能力。亚硝化细菌、反硝化细菌以及AnAOB的共存构成了系统内复杂的氮转化途径。

03 讨 论

SHAP分析结果表明,COD浓度对于PNA与PDA工艺的出水TN浓度都具有重要影响,要求2种工艺在实际应用时需要预先做好污废水中碳源的管理,即分离与分配。其作用在于避免COD对AnAOB的抑制,降低有机碳的能量消耗,同时可以把碳源应用于Anammox反应之后的残余NO3--N的去除。一般来说,实际工程中可进行的碳源管理有2种模式,一是前置A单元进行预处理,A单元可以采用厌氧转化过程、高速率活性污泥(HRAS)、集成固定膜活性污泥(IFAS)、物化分离(萃取、混凝、气浮、吸附)等技术对COD进行降解转化或捕获分离。Taboada-Santos等利用城市污水对比了化学强化一级处理(CEPT)和HRAS对于COD的预处理能力。在FeCl3投加量为150 mg/L时CEPT方式能够达到88%的COD去除率,但会导致污水的pH从7.8下降到6.8。HRAS在HRT设置为2 h,污泥停留时间(SRT)设置为1 d的条件下,实现了87%的COD去除,污泥的COD回收率在71%左右。另一种方式是前置好氧单元,通过微生物的矿化作用将有机碳归一化为CO2,同时可以完成短程硝化的功能。

在Wei等提出的流态化及污泥原位分离技术支持的资源/碳源管理-除碳氨氧化/水解氮转化/硝化矿化(A-OHO)工艺中,将上述两类碳源管理模式进行了有机结合,A是物化和生化的渗透与结合,包括厌氧、吸附、混凝、萃取、气浮等方法,根据不同废水水质合理选择单元功能以实现预处理与碳源管理;O1单元置于脱氮单元(H)之前,通过DO与HRT等参数的调控实现氨化、短程硝化与完全硝化的切换,并且好氧置前在面对如焦化废水之类的高毒性废水还具有降低毒性的功能。H单元为主要的脱氮场所,可以采用Anammox、自养反硝化、异养反硝化或三者的耦合技术进行脱氮,根据情景,有时需要与A单元配合完成总氮的彻底脱除。后置的O2单元则可以进行生物脱氮出水的深度氧化,避免NH4+-N、NO2--N、COD等还原性污染物的超标排放。同时,O2单元配合硝化液回流的操作能够在H单元内实现PDA过程脱氮。在流态化技术支持下,每个单元具有污泥原位分离功能,使得HRT与SRT完全分离,反应器具有更强的功能可编辑性,非常有利于AnAOB的富集。通过上述分析可以发现,该工艺从原理上同时涵盖了PNA与PDA的组合优势,是2种工艺未来工程化应用的有力支持平台。

04 结 论

1)成功构建了随机森林(RF)与梯度提升决策树(GBDT)2种模型对PNA和PDA工艺的出水TN浓度进行了预测,RF模型在预测任务中表现出了更高的精度,其对PNA和PDA工艺出水TN浓度预测结果的R2分别达到了0.728和0.812,结合相关性分析结果发现,机器学习模型能够准确地处理生化反应中复杂的非线性关系。

2)SHAP方法解析表明,PNA工艺总氮去除的调控因素除了普遍关注的DO和COD/TN之外,关键影响因素是进水TN及进水COD浓度;而PDA工艺总氮去除性能优化的影响因素包括HRT、进水TN浓度和COD浓度,这为PNA与PDA的过程控制提供了可靠途径。其中,COD调控2个工艺的作用机制不同,对于PNA工艺,高进水COD浓度会导致出水TN浓度的升高;但在PDA工艺中,COD的影响是双向的,一方面需要足够的浓度保证PD过程的稳定进行,另一方面,过高浓度的COD会抑制Anammox反应。因此,对于PNA的实际工程应用,需要预先做好废水原水中的碳源分离;而PDA工艺则需要在分离的基础上进行碳源的合理分配以保证PD和Anammox反应的顺利进行。

3)流态化及其污泥原位分离技术支持的A-OHO工艺在原理上同时将PNA与PDA工艺涵盖在内,在实施资源/碳源管理的前提下通过O1单元调控含氮化合物的形/价态及比例,协同H单元通过PNA或PDA实现TN去除的目标,最后通过O2单元控制出水质量,保证系统的稳定性。由此预见,A-OHO组合工艺是复杂工业废水PNA及PDA工艺结合脱氮原理实际应用的可行平台技术。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。