同济大学刘彦伶课题组WR:基于机器学习定制纳滤和反渗透膜以针对性地去除有机微污染物
摘要
本研究构建了一个基于机器学习的框架,用于定制纳滤(NF)和反渗透(RO)膜的性能,以针对特定有机微污染物(OMPs)的去除。通过机器学习(ML)捕获膜和OMPs属性与OMPs去除效率之间的相关性,建立了一个准确且稳健的极端梯度提升(XGBoost)模型,该模型能够很好地识别OMPs的主要排斥机制(即尺寸排除效应和静电相互作用)。通过对另一组高风险OMPs数据集的示例应用,展示了优化模型如何用于估计OMPs风险控制的整体效率,并更重要的是,为特定去除目标提供膜属性的定量指导。令人满意的预测结果证明了ML模型的良好泛化能力,从而能够敏感地定义理想膜属性,以针对性地去除这些(及其他关注)OMPs。
背景与意义
水环境中的有机微污染物(OMPs)造成潜在的生态和健康风险,已成为全球重要的环境问题之一。许多OMPs是人造化学物质,用途广泛,难以找到替代品,这为从水中有效去除OMPs以确保水相关应用的安全性提出了巨大挑战。
在各种去除OMPs的技术中,基于膜的分离技术,尤其是纳滤(NF)和反渗透(RO),因其高效率和环境友好性而受到青睐,并在水处理中得到广泛应用。为了经济有效地从水中去除OMPs,NF或RO膜的优化和新型膜的开发已受到越来越多的研究关注。
本研究通过构建数据库和应用机器学习技术,解决了传统方法在评估和改进膜去除OMPs性能时需要大量实验室工作的问题,并且能够提供针对特定OMPs去除目标的膜属性的定量指导,这在以往的研究中较少见。
实验步骤
• 数据集准备:从文献中收集了890个与NF/RO聚酰胺膜处理OMPs相关的数据,并进行预处理。
• 特征工程和数据集分割:通过特征工程优化ML模型性能,使用皮尔逊相关分析帮助识别彼此高度相关的特征,并进行数据集分割。
• 模型构建:选择了包括多重线性回归(MLR)、支持向量机(SVM)和极端梯度提升(XGBoost)在内的三种机器学习算法进行模型选择和评估。
• 模型解释:使用Shapley additive explanationsSHAP和部分依赖图(PDP)来解释模型。
结论
• 通过10次随机分割的评估,XGBoost模型在测试集上表现出优越的性能,因此被选为最终模型。
• SHAP和PDP解释结果表明,ML模型能够很好地识别OMPs的主要排斥机制,即尺寸排除效应和静电相互作用。
• 通过模型预测高风险OMPs的去除效率,能够为特定去除目标提供膜属性的定量指导。
机理
• 模型通过识别尺寸排除效应和静电相互作用作为OMPs去除的主要机制,提供了对膜属性定制的定量指导。
• 模型预测能力表明,对于外部数据集的高风险OMPs,模型具有良好的泛化能力和对OMPs多样性的敏感性。
• 通过阐明OMPs的综合和个别去除效率与膜属性的变化之间的关系,可以确定与目标OMPs和期望去除程度相匹配的理想膜属性。