《6舒詩湖-基于機器學習算法和黑箱模型的供水水質模擬預測.pdf》由會員分享,可在線閱讀,更多相關《6舒詩湖-基于機器學習算法和黑箱模型的供水水質模擬預測.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、褚洋洋 李卉 舒詩湖C O N T E N T S研究背景與意義Subjects Fact Sheet研究思路與方法Research Ideas and Methods研究結果與分析Findings and Analysis研究結論與展望Conclusions and Outlook of The Study01030402研究背景與意義崇 德 博 學 礪 志 尚 實水源-水廠用戶消毒給水管網余氯濃度沿程不斷衰減余氯衰減模型水中有機物(NOM)游離氯消毒副產物(DBPs)DBPs預測模型包括三鹵甲烷(THMs)鹵乙酸(HAAs)等致癌性、突變性飲用水水質安全:末端保持一定濃度余氯,消毒副產物濃
2、度在限值以下從模型中可得:氯消耗量(C0-Ct)線性關系DBPs=k(C0-Ct)崇 德 博 學 礪 志 尚 實余氯衰減模型消毒副產物預測模型混合級數模型平行一級模型平行二級模型 預測效果一般反應速率不變模型較為復雜一級模型 二級模型 混合模型 變反應速率模型 VRC 模型AVRC 模型VRRC 模型SPVRC 模型管網水力條件、供水區域不斷變化余氯衰減系數也在動態變化多元線性/非線性回歸支持向量機決策樹模型集成學習深度學習機理模型非機理模型人工智能、大數據等技術不斷發展新型消毒副產物預測模型具有重要價值崇 德 博 學 礪 志 尚 實課題概況介紹01 研究綜述獲取較長時間歷史數據,進行中長期水
3、質預測。獲取短期歷史數據,進行短期水質預測預報。水源、水廠、管網、二供等環節的水質均可模擬預測崇 德 博 學 礪 志 尚 實課題概況介紹02 研究綜述獲取較長時間不同點位歷史數據,進行數據關聯訓練,已知A點預測B點。崇 德 博 學 礪 志 尚 實課題概況介紹03 研究綜述獲取較長時間不同指標歷史數據,進行相關性分析,已知影響因素數據進行水質預測。消毒副產物預測研究思路與方法Research Ideas and Methods崇 德 博 學 礪 志 尚 實將樣本數據通過非線性核函數映射到高維空間,找到少數有效的支持向量表示整個數據集,使得數據在高維空間中線性可分。通過對樣本進行采樣進而隨機產生若
4、干決策樹,所有決策樹對每個樣本進行預測,取平均值作為該樣本的預測結果。通過卷積操作和池化操作來提取圖像等數據中的特征,并通過多層神經網絡將這些特征組合起來,從而實現對輸入數據的回歸預測。崇 德 博 學 礪 志 尚 實研究方法與內容模型原理神經網絡遞歸神經網絡崇 德 博 學 礪 志 尚 實研究方法 LSTM流程圖采用網格優化法對內部參數進行優化Batch sizeEpochoptimizer崇 德 博 學 礪 志 尚 實研究思路與方法原始數據分析總體而言,這三年間藍綠藻細胞數量呈現季節性和周期性的波動,可能與水中的溫度、氨氮、pH有關。最低氣溫同藻類數量最低值、以及最高氣溫同藻類數量最高值呈現正
5、相關關系。近三年藍綠藻細胞數量總數最小值變化趨勢2024年1月份氣溫與藻類數量變化趨勢圖研究結果與分析Findings and Analysis崇 德 博 學 礪 志 尚 實藻細胞預測未考慮影響因素的預測效果u 預測值與真實值的變化趨勢大致相同,能夠相對準確地預測出藍綠藻細胞數量變化的趨勢。u 未輸入影響因素的預測模型仍存在一定的時間滯后性,且預測數值曲線相對較為“平穩”,不能夠準確預測時間間隔的藻類細胞變化浮動。u 考慮到藍綠藻細胞數量可能會受到環境因素的影響,后續開展多因素輸入時間序列的藍綠藻細胞數量預測。batch size:16 epochs:15 optimizer:adambatc
6、h size:8 epochs:15 optimizer:adam崇 德 博 學 礪 志 尚 實藻細胞預測影響因素相關性分析u針對現有的監測數據,對pH、氨氮、電導率、氯化物濃度、溶解氧、水溫、葉綠素、濁度、總磷10個因素進行相關性分析。u由圖可知,pH、水溫、葉綠素a是表征藍綠藻類細胞數量多少的主要特征。崇 德 博 學 礪 志 尚 實藻細胞預測考慮影響因素的預測效果u 模型能準確預測藍綠藻細胞數量隨時間的變化趨勢,擬合效果較好。u 與未考慮影響因素的預測模型相比,考慮影響因素預測模型的預測效果更好。batch size:8 epochs:15 optimizer:adam預測模型評價指標 未
7、輸入影響因素 輸入影響因素 對比(%)R2()0.93 0.96 3.23 MSE()115.01 70.42-38.77 RMSE()10.72 8.39-21.74 MAE()9.05 6.65-26.52 MAPE()1.52 1.09-28.29 SMAPE()1.51 1.10-27.15 崇 德 博 學 礪 志 尚 實實驗室測量復雜且耗時利用Log線性回歸模型、隨機森林回歸模型(RFR)、支持向量回歸機模型(SVR),預測總三鹵甲烷(T-THMs)、二溴一氯甲烷(DBCM)、一溴二氯甲烷(BDCM)的濃度。利用易獲取的水質參數UV254TemperaturepHNH4+-NCODT
8、OCNO3-NNO2-NBr-Liu,K.,Lin,T.,Zhong,et al.(2023)Science of The Total Environment,870,161976.Log線性回歸模型支持向量回歸機模型(SVR)隨機森林回歸模型(RFR)THMs:T-THMs,DBCM,BDCM崇 德 博 學 礪 志 尚 實將數據集(175個)劃分為訓練集(141個)和測試集(34個)。對數據進行歸一化處理。設置SVR的訓練參數,包括懲罰因子c、核函數參數g和優化算法的停止容差p。輸入訓練集數據并使用svmtrain函數訓練SVR模型。輸入測試集數據,使用訓練好的模型并通過svmpredict
9、函數進行預測。對預測結果的數據進行反歸一化。計算訓練集和測試集的均方根誤差(RMSE)、平均絕對誤差(MAE)、決定系數(R2)并可視化結果。圖1 SVR模型構建方法崇 德 博 學 礪 志 尚 實設置懲罰因子c的搜索范圍為0.1,2,步長為0.1。核函數參數g的搜索范圍為0.1,8,步長為0.1。損失函數p=0.001。將各取值的c,g以及訓練集和測試集的RMSE、MAE、輸出到excel表格中。對輸出結果進行比較,得到最優的c,g參數組合。圖2 不同c,g參數組合下的RMSE(T-THMs、DBCM、BDCM)崇 德 博 學 礪 志 尚 實 模型建立方法將141個訓練集的T-THMs、DBC
10、M、BDCM濃度的對數值(log10Yi)設為因變量(Y),將9個水質指標的對數值(log10Xi)設為自變量(X);采用逐步回歸的方法建立方程,以T-THMs為例:最后方程變為 ,其中k0,k1,ki為常數。Log線性回歸模型表達式:01110ikkkiTTHMsXX101001101210210loglogloglog.log(1,2,.,9)iiTTHMskkXkXkX i崇 德 博 學 礪 志 尚 實 對于全集(圖a1-c1):T-THMs、DBCM、BDCM的N25在77%-81%之間,皮爾森相關系數(rp)在0.65-0.78之間。對于訓練集(圖a2-c2):T-THMs、DBCM
11、、BDCM的N25在77%-79%之間,rp在0.66-0.79之間,與全集預測效果相當。對于測試集(圖a3-c3):T-THMs的N25達到了85%,DBCM、BDCM的N25均為76%,但rp值不夠理想,在0.62-0.76之間。圖3 Log線性回歸模型預測值與實測值比較(a、b、c 分別表示 T-THMs、DBCM、BDCM,后綴 1、2、3 分別表示全集、訓練集、測試集)崇 德 博 學 礪 志 尚 實崇 德 博 學 礪 志 尚 實 對于DBCM和T-THMs,RFR模型表現出比SVR模型和Log線性回歸模型更好的性能;對于BDCM,SVR模型和RFR模型的預測性能各有千秋;對于本研究中的THMs,RFR模型的性能總體要優于SVR模型和Log線性回歸模型。研究結論與展望Conclusions and Outlook of The Study崇 德 博 學 礪 志 尚 實研究結論與展望l 該類方法建模速度快精度好,適用于水源地、水廠和供水管網水質預測。l 預測模型可以嘗試引入優化算法構建學習網絡,進一步提升預測精準度。l 尋找與數據變化具有強相關的影響因素,進一步減弱預測模型的滯后性。P L E A S E G I V E M E A S M U C H C R I T I C I S M A S P O S S I B L E