8、梁中耀-基于機器學習的藍藻預測預警方法研究(24頁).pdf

編號:91486 PDF 24頁 1.58MB 下載積分:VIP專享
下載報告請您先登錄!

8、梁中耀-基于機器學習的藍藻預測預警方法研究(24頁).pdf

1、基于機器學習基于機器學習的的藍藻預測預警藍藻預測預警方法研究方法研究1 北京英特北京英特-銳銳思計算智能實驗室思計算智能實驗室2 北京大學北京大學第五屆中國水環境模型與智能決策研討會第五屆中國水環境模型與智能決策研討會云南云南 玉溪玉溪2018年年10月月Email:1鄒銳鄒銳1,2、梁中耀、梁中耀2、劉永、劉永21 1 大數據時代:大數據時代:水質預測預警的機遇與挑戰水質預測預警的機遇與挑戰21 1.1.1 水質管理進入大數據時代水質管理進入大數據時代 水質管理大數據水質管理大數據(Big or Intensive Data)的來源的來源 手動監測數據的時空累積和開放獲取手動監測數據的時空累

2、積和開放獲取 自動監測站的建立和自動監測站的建立和自動監測數據自動監測數據的開放獲取的開放獲取 遙感解譯遙感解譯 高高精度精度水質模型的水質模型的輸出輸出結果結果 水質管理:預測和預警水質管理:預測和預警 預測預測:水質:水質指標指標(未來時刻未來時刻)的的濃度值濃度值 預警預警:水質指標:水質指標未來時刻的未來時刻的達標達標(超過特定閾值超過特定閾值)狀況狀況 藍藻的預測和預警藍藻的預測和預警 富營養化和藻類水華:危害嚴重,形勢嚴峻富營養化和藻類水華:危害嚴重,形勢嚴峻 大大數據時代數據時代(長時間連續觀測數據長時間連續觀測數據):如何進行有效的預測預警:如何進行有效的預測預警31.21.2

3、 自動監測數據自動監測數據預測和預警:機遇預測和預警:機遇和和挑戰挑戰 自動監測數據自動監測數據 VS VS 常規監測數據常規監測數據數據數據自動監測自動監測常規監測常規監測頻次頻次高高(秒、小時、天秒、小時、天)低低(周、月周、月)數據量數據量大大(M、G)小小(K)自相關自相關強強弱、無弱、無42 2 一種思路:一種思路:“水質模型“水質模型-機器學習”機器學習”52.12.1 如何解決傳統方法失效問題如何解決傳統方法失效問題()()()()()11111,=,tfttftittitCttCttttttottotttfWhxbiWhxbCtanh WhxbCfCiCoWhxbhotanh

4、C=+=+=+=+=()()()()()()123456 回歸方法:共線性、非線性回歸方法:共線性、非線性 一般機器學習方法:高維度一般機器學習方法:高維度 普通普通遞歸遞歸神經網絡:神經網絡:誤差爆炸或消失誤差爆炸或消失無法解決長時依賴問題無法解決長時依賴問題(最多最多10步步)LSTM:保證短期記憶能力的條件下,時滯步長可達保證短期記憶能力的條件下,時滯步長可達1000技術關鍵:技術關鍵:Constant Error Backpropagation6 數據數據-模型融合的模型融合的3種方式種方式 在自動監測時間序列缺乏的條件下,通過能夠準確描述湖泊系統動態的高度非在自動監測時間序列缺乏的條

5、件下,通過能夠準確描述湖泊系統動態的高度非線性動力學模型線性動力學模型(可靠的水質模型可靠的水質模型),獲取次生大數據,獲取次生大數據72.22.2 如何解決自動監測數據匱乏的問題如何解決自動監測數據匱乏的問題水質模型 湖泊系統次生大數據 觀測大數據3 3 案例介紹案例介紹8 輸入輸入(4(4類類9 9個個)模型結構:模型結構:隱層隱層個數個數1 1(138)(138)、4 4(145)(145)、1010(145)(145)、2020(153)(153)、3030(152)(152)、4040(148)(148)、6060(103)(103)、8080(106)(106)邊界邊界條件條件天數

6、天數5 5(227)(227)、1010(227)(227)、2020(226)(226)、4040(225)(225)、6060(185)(185)3.13.1 LSTMLSTM模型模型(1)(1)水溫:水溫:TEMTEM(2)(2)生物量:生物量:CHLCHL、CHCCHC(3)(3)磷:磷:TPTP、TPNTPN、PO4PO4(4)(4)氮:氮:TNTN、TNNTNN、TINTIN1234560.000.100.200.30輸入變量個數的出現頻率93.23.2 模型輸出結果模型輸出結果 模型輸出與分析對象模型輸出與分析對象1090個個LSTM模型,每個模型有模型,每個模型有15組組(實際

7、值實際值 vs 預測預測值,值,預測預測2,4,6,30天天)Chla濃度輸出濃度輸出占用占用1.58 G存儲空間,存儲空間,Train文件夾文件夾 1.27 G+Test文件夾文件夾 0.31 G,各,各有有1006個個csv文件文件每個每個Train文件夾中文件夾中csv文件的文件的Chla輸出:輸出:2877行行 15組組(30列列),共共8600多多萬個數據萬個數據每個每個Test文件夾中文件夾中csv文件的文件的Chla輸出:輸出:693行行 15組組(30列列),共,共2000多萬多萬個個數據數據 回答哪些問題回答哪些問題?模型效果模型效果:能否滿足:能否滿足CHL的預測與預警效果

8、的預測與預警效果預測與預警效果的影響因素:哪些是重要的預測與預警效果的影響因素:哪些是重要的?指導未來自動監測指導未來自動監測#預警效果對閾值的穩健性:預警效果對閾值的穩健性:80 g/L、100 g/L?103.33.3 模型評價指標模型評價指標 預測預測()()21211niiiniiyyNSEyy=()21TtttyyRMSEn=11TttttyyMAPETy=預警預警()1AccuracyPrecisionRecall2Precision RecallPrecision RecallTPTNTPFPFNTNTPTPFPTPTPFNF+=+=+=+=+過擬合:比較訓練樣本和檢驗樣本的過擬

9、合:比較訓練樣本和檢驗樣本的NSENSE114 4 預測效果和影響因素預測效果和影響因素1213很好一般很差0123(a)Density Function0.00.51.0-0.50.00.51.0(b)Distribution FunctionNSE4.14.1 LSTM模型效果評估模型效果評估 NSENSE的分布的分布大量模型可達很好預測效果滿意滿意(0.65):54.3%較好較好(0.80):18.8%很好很好(0.90):2.6%0.39414050100150(a)LSTM因子重要度0.000.050.100.150.200.25(b)RF錯誤概率TEMTPTNCHLLatentPO

10、4TINPreDayBorder3.9%3.9%4.24.2 預測效果的影響因素預測效果的影響因素 第一次隨機森林模型第一次隨機森林模型 預測變量:離散化的預測變量:離散化的NSE(0.394)High(77.4%);Low(22.6%)輸入變量:輸入變量:變量名稱變量名稱變量類型變量類型變量水平變量水平TEMTEM因子因子2個:個:Y、NPO4PO4因子因子2個:個:Y、NTINTIN因子因子2個:個:Y、NCHLCHL因子因子3個:個:CHL、CHC、NCHTPTP因子因子3個:個:TP、TPN、NTPTNTN因子因子3個:個:TN、TNN、NTN隱層個數隱層個數數值數值8個:個:1、4、

11、10、20、30、40、60、80邊界天數邊界天數數值數值5個:個:5、10、20、40、60預測天數預測天數數值數值15個:個:230的偶數的偶數 結果:因子重要度結果:因子重要度154.24.2 預測效果的影響因素預測效果的影響因素-0.500.51TEMPO4TINNTPTPTPNNTNTNTNNCHCCHLNCH有有無無P PNNB BTNN&TPNTNN&TPN 包含包含TEM則則NSE均較高,模型均為均較高,模型均為High 包含包含CHL或或CHC則則NSE均較高,模型均為均較高,模型均為High 包含包含TPN或或TNN模型可以為模型可以為Low 但當但當TPN或或TNN與與T

12、EM或或CHL(CHC)同時作為同時作為輸入變量時,模型均為輸入變量時,模型均為High164.24.2 預測效果的影響因素預測效果的影響因素 第二次隨機森林模型第二次隨機森林模型 預測變量:預測變量:NSE(0.394)04812(a)LSTM因子重要度0.250.500.751.00(b)RF方差解釋率CHLPreDayTEMTPTNLatentPO4TINBorder0.730.730.40.60.81.0TEMNTPTPTPNCHCCHLNCH0.680.700.725204060(a)邊界條件天數1102030406080(b)隱層個數174.24.2 預測效果的影響因素預測效果的影

13、響因素TEM,CHL(CHC),TPN(TP)TEM+CHL(CHC)+TPN(TP)組合組合 平均效果:平均效果:30天內天內0.65,14天內天內0.8 最佳效果最佳效果:30天天內內0.8,16天天內內0.90.40.60.81.01230.50.60.70.80.91.0481216202428預測天數Mean(1)Mean(2)Mean(3)Max(3)184.34.3 預警效果的影響因素預警效果的影響因素 CHLCHL的分布的分布:閾值閾值=100 g/L=100 g/L0.0000.010(a)概率密度0501001500.000.501.00(b)累積概率密度0.70.7 響應

14、變量:預警評價指標響應變量:預警評價指標?有有警:準確率警:準確率?有效率?有效率?無無警:準確率警:準確率?有效率有效率?TPPRW=TP+FNTPEFW=TP+FPTNPRC=TN+FPTNEFC=TN+FNCHL(g/L)0.540.750.920.83194.34.3 預警效果的影響因素預警效果的影響因素 第三次隨機森林模型第三次隨機森林模型 預測變量預測變量:PRW(預警準確率預警準確率)0102030(a)LSTM因子重要度0.250.500.75(b)RF方差解釋率CHLPreDayTEMLatentTPTNBorderPO4TIN0.000.501.00TEMNTPTPTPNC

15、HCCHLNCH0.40.50.6420406080(a)隱層個數481216202428(b)預測天數204.34.3 預警效果的影響因素預警效果的影響因素TEM,CHL(CHC)0.30.40.50.60.70.80.91.0481216202428預測天數TEM+CHL+Latent40TEM+CHL+Latent0.6,12天天0.7 最佳效果最佳效果:可高達:可高達0.91.00.50.70.902468EFWPRCEFC有警有警準確率為準確率為70%70%有效率為有效率為75%75%無無警警準確率為準確率為90%90%有效率為有效率為86%86%215 5 結論結論225 5 結論

16、結論 案例:案例:CHLCHL預測預警預測預警 TEM+CHL+TPTEM+CHL+TP為影響預測預警效果的主要因子為影響預測預警效果的主要因子 預警效果預警效果(PRW)(PRW)則隨著則隨著預測天數預測天數而較快地遞減而較快地遞減 EFDC+LSTM+RFEFDC+LSTM+RF方法體系方法體系 自動監測數據缺乏時,產生高頻數據的明智之舉自動監測數據缺乏時,產生高頻數據的明智之舉(次生大數據次生大數據)高頻監測數據高頻監測數據下下水質影響因子的識別方法,有利于提高對水環境系統的認知水質影響因子的識別方法,有利于提高對水環境系統的認知 未來研究未來研究預警效果與預警閾值預警效果與預警閾值的的穩健性穩健性提高提高較長期較長期(例如例如1515天天)的預警效果的預警效果真實真實的自動監測數據:的自動監測數據:預處理預處理&應用應用23謝謝各位老師和同學謝謝各位老師和同學敬請批評指正敬請批評指正24

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(8、梁中耀-基于機器學習的藍藻預測預警方法研究(24頁).pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站