1、2023 DataFunCon時序預測算法在蔚來汽車的應用探索演講人:后士浩蔚來汽車高級算法工程師目錄業務背景關鍵挑戰算法實踐總結展望Contents01 業務背景蔚來汽車簡介蔚來汽車成立于2014年11月,是高端智能電動汽車市場的先驅及領跑者。蔚來的使命是創造愉悅的生活方式。蔚來旨在打造一個以智能電動汽車為起點的社區,與用戶分享歡樂、共同成長。蔚來的產品組合包括六座智能電動旗艦SUV ES8、中大型五座智能電動SUV ES7(或EL7)、五座全場景智能電動SUV ES6、五座智能電動旗艦轎跑SUV EC7、五座智能電動轎跑SUV EC6、智能電動旗艦轎車ET7及中型智能電動轎車ET5。時序預
2、測背景時域(temporal domain):序列隨時間的變化頻域(frequency domain):序列頻率的變化 周期:重復的上升、下降過程,從哪來回哪去 季節性:固定頻率的上升、下降,多為先驗因素 趨勢:長期保持增長或者下降 譜密度:信號由少數主頻疊加而成換電站需求預測https:/ 按照輸入變量數量劃分,包括:單變量:單個變量 多變量:至少兩個變量 按照輸出序列長度劃分,包括:單輸出:預測長度等于1 多輸出:預測長度大于1 按照輸出序列時間跨度劃分,包括:短期預測 中期預測 長期預測應用場景 新站選址 錯峰充電 電池調度業務需求 短期預測:預測未來24小時的單量 中期預測:預測未來3
3、0天的單量 長期預測:預測未來12個月的單量算法任務 多變量多輸出的短期預測 多變量多輸出的中期預測 多變量多輸出的長期預測02 關鍵挑戰關鍵挑戰多序列的復雜季節性多序列的復雜季節性 不同換電站的序列不同 序列間的季節性不一致時間特征的漂移時間特征的漂移 節假日時間不固定 預測具有時間先驗增長與競爭增長與競爭 電區房用戶增長 換電站間的競爭ABCABC202120222023 標記數據標記數據,&,03 算法實踐系統架構數據倉庫特征引擎Embedding引擎機器學習模型統計組件算法部署平臺(ServableAPIs)數據特征模型服務組合深度學習模型ARIMAProphetLGBTCNInfor
4、merDCN模型組件MAXAVGMINDQNSVMGBDTtokenvaluepositionaltemporalCRNNLR屬性數據訂單數據用戶數據天氣數據車輛數據相關變量分布性周期性運營數據機器學習模型ARIMAProphetLGB優點:優點:簡單易行,可解釋性強 數據量要求低 計算速度較快,可以對每個站在線擬合推理缺點:缺點:僅支持單變量 無法特征工程 準確率低適用場景:適用場景:項目初期冷啟動優點:優點:簡單易行,可解釋性強 數據量要求低 計算速度更快,可以對每個站在線擬合推理缺點:缺點:僅支持單變量 無法特征工程 準確率較低適用場景:適用場景:項目初期迭代優點:優點:準確率較高;簡單
5、易行,可解釋性強;支持批量預測,計算速度更快;缺點:缺點:迭代模型等于迭代特征,迭代特征存在瓶頸;對類別特征利用不充分;適用場景:適用場景:項目中期迭代深度學習模型統一的架構(unified architecture):所有的CNNs、RNNs和Transformers都是生成模型Embedding引擎編碼器解碼器 TCN模型的編碼器和解碼器是1D卷積網絡 CRNN模型的編碼器和解碼器是1D卷積網絡和RNN網絡 Informer模型的編碼器和解碼器是Transformer網絡 DCN模型的編碼器和解碼器是2D卷積網絡輸出數據輸入數據Embedding引擎Token EmbeddingValue
6、 EmbeddingPositional EmbeddingTemporal Embedding其它相關變量時間相關變量屬性變量特征向量Token EmbeddingToken常見于自然語言處理,Token就是“詞”的數字化表示,此處也需要token表達屬性變量。如何解決多序列問題?ABCA城區站一代站商場B城際站二代站服務區C城區站三代站景點TokenEmbeddingValue Embedding如何解決競爭與增長問題?競爭與增長是容易被忽視的相關變量,我們需要從單站維度考慮區域維度。3km標準續航長續航站數量總單量5km標準續航長續航站數量總單量10km標準續航長續航站數量總單量Valu
7、eEmbeddingPositional Embedding如何解決復雜季節性問題?標記不同序列在不同季節性下的變化位置,這里和transformer的PE方法相同。ABCPositionalEmbeddingTemporal Embedding如何解決節假日時間不固定問題?202120222023小時天周月年陽歷農歷小時天周月年TemporalEmbeddingTemporal Embedding如何解決時間先驗問題?標記數據標記數據,&,輸入時間數據預測時間數據輸入時間數據雖然預測時間數據已知,但是其它相關變量未知,輸入數據維度不一致,怎么處理?輸入時間變量輸入其它變量(實際+填充)輸出預
8、測變量,&卷積模塊設計輸入數據1st卷積層2nd卷積層3rd卷積層假設輸入序列長度等于L,第i個卷積層的卷積核大小等于2i+1,步長等于1,需要多少卷積層?卷積層序號卷積層序號卷積核大小卷積核大小感受野感受野1332573713=+1 =感受野(Receptive Field,RF):保證卷積神經網絡可以看到這么遠輸入數據1st卷積層2nd卷積層3rd卷積層遠近時間線遠近時間線因果卷積(Causal Convolution,CC):保證序列的時間因果關系卷積模塊設計現在我們已經知道卷積神經網絡應該有多少層,那么層與層之間應該怎么連接?子模塊卷積模塊模型融合分享三個故事加法還是減法?分類還是回歸
9、?向上、向下還是躺平?實踐效果模型MAEMAPEARIMA7.8141.23%Prophet7.0633.65%LGB5.1226.33%TCN5.2126.74%CRNN4.8827.28%Informer4.6323.17%DCN4.5223.12%LGB模型對節假日過擬合,且不利于處理節假日預測;Informer模型對長序列的季節性表現不佳,但DCN模型可以通過對齊時變變量,有利于處理節假日預測;04 總結展望未來計劃更快更好更有價值 實時化 高效化 縱向追求算法卓越 橫向追求功能完善 數字化賦能 開源共創2023 DataFunCon演講人:后士浩蔚來汽車高級算法工程師感謝您的觀看 THANKS