Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting

Chen, Wenwen; Shao, Yinzi; Xu, Zhicheng; Bing, Zhou; Cui, Shuhe; Dai, Zhenxiang; Yin, Shuai; Gao, Yuewen; Liu, Lili

doi:10.3390/su18031200

This is an early access version, the complete PDF, HTML, and XML versions will be available soon.

Open AccessArticle

Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting

by

Wenwen Chen

^1,†,

Yinzi Shao

^2,†

,

Zhicheng Xu

³,

Zhou Bing

²,

Shuhe Cui

⁴

,

Zhenxiang Dai

²,

Shuai Yin

²,

Yuewen Gao

¹ and

Lili Liu

^2,*

¹

College of Management and Engineering, Xuzhou University of Technology, Xuzhou 221018, China

²

College of Saint Petersburg Joint Engineering, Xuzhou University of Technology, Xuzhou 221018, China

³

School of Chemistry and Life Sciences, Nanjing University of Posts and Telecommunications, Nanjing 210003, China

⁴

College of Design and Engineering, National University of Singapore, Singapore 119077, Singapore

^*

Author to whom correspondence should be addressed.

^†

These authors contributed equally to this work.

Sustainability 2026, 18(3), 1200; https://doi.org/10.3390/su18031200 (registering DOI)

Submission received: 5 December 2025 / Revised: 14 January 2026 / Accepted: 18 January 2026 / Published: 24 January 2026

(This article belongs to the Section Sustainable Water Management)

Download Versions Notes

Abstract

Water quality monitoring faces increasing challenges due to accelerating industrialization and urbanization, demanding accurate, real-time, and reliable prediction technologies. This study presents a novel ensemble learning framework integrating Gaussian Process Regression, Support Vector Regression, and Random Forest algorithms for high-precision water quality pH prediction. The research utilized a comprehensive spatiotemporal dataset, comprising 11 water quality parameters from 37 monitoring stations across Georgia, USA, spanning 705 days from January 2016 to January 2018. The ensemble model employed a dynamic weight allocation strategy based on cross-validation error performance, assigning optimal weights of 34.27% to Random Forest, 33.26% to Support Vector Regression, and 32.47% to Gaussian Process Regression. The integrated approach achieved superior predictive performance, with a mean absolute error of 0.0062 and coefficient of determination of 0.8533, outperforming individual base learners across multiple evaluation metrics. Statistical significance testing using Wilcoxon signed-rank tests with a Bonferroni correction confirmed that the ensemble significantly outperforms all individual models (p < 0.001). Comparison with state-of-the-art models (LightGBM, XGBoost, TabNet) demonstrated competitive or superior ensemble performance. Comprehensive ablation experiments revealed that Random Forest removal causes the largest performance degradation (+4.43% MAE increase). Feature importance analysis revealed the dissolved oxygen maximum and conductance mean as the most influential predictors, contributing 22.1% and 17.5%, respectively. Cross-validation results demonstrated robust model stability with a mean absolute error of 0.0053 ± 0.0002, while bootstrap confidence intervals confirmed narrow uncertainty bounds of 0.0060 to 0.0066. Spatiotemporal analysis identified station-specific performance variations ranging from 0.0036 to 0.0150 MAE. High-error stations (12, 29, 33) were analyzed to distinguish characteristics, including higher pH variability and potential upstream pollution influences. An integrated software platform was developed featuring intuitive interface, real-time prediction, and comprehensive visualization tools for environmental monitoring applications.

Keywords: ensemble learning; water quality prediction; pH prediction

Share and Cite

MDPI and ACS Style

Chen, W.; Shao, Y.; Xu, Z.; Bing, Z.; Cui, S.; Dai, Z.; Yin, S.; Gao, Y.; Liu, L. Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting. Sustainability 2026, 18, 1200. https://doi.org/10.3390/su18031200

AMA Style

Chen W, Shao Y, Xu Z, Bing Z, Cui S, Dai Z, Yin S, Gao Y, Liu L. Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting. Sustainability. 2026; 18(3):1200. https://doi.org/10.3390/su18031200

Chicago/Turabian Style

Chen, Wenwen, Yinzi Shao, Zhicheng Xu, Zhou Bing, Shuhe Cui, Zhenxiang Dai, Shuai Yin, Yuewen Gao, and Lili Liu. 2026. "Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting" Sustainability 18, no. 3: 1200. https://doi.org/10.3390/su18031200

APA Style

Chen, W., Shao, Y., Xu, Z., Bing, Z., Cui, S., Dai, Z., Yin, S., Gao, Y., & Liu, L. (2026). Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting. Sustainability, 18(3), 1200. https://doi.org/10.3390/su18031200

Note that from the first issue of 2016, this journal uses article numbers instead of page numbers. See further details here.

Article Metrics

Article metric data becomes available approximately 24 hours after publication online.

Article Menu

Ensemble Machine Learning for Operational Water Quality Monitoring Using Weighted Model Fusion for pH Forecasting

Abstract

Share and Cite

Article Metrics

Further Information

Guidelines

MDPI Initiatives

Follow MDPI