《楊旭-Alink的新進展及典型示例.pdf》由會員分享,可在線閱讀,更多相關《楊旭-Alink的新進展及典型示例.pdf(32頁珍藏版)》請在三個皮匠報告上搜索。
1、楊旭/阿里巴巴資深算法專家AlinkAlink的新進展及典型示例的新進展及典型示例New progress and typical examples of Alink內容提綱概述新算法-深度學習組件-流式特征工程-時序算法組件新功能-推理組件加速-模型流-Web UIAlink教程(Java版,Python版)未來展望What is Alink Alink是基于Flink的機器學習算法平臺Alink is the Machine Learning algorithm platform based on Flink.-由阿里巴巴計算平臺事業部PAI團隊研發Developed by the PAI
2、 team of Alibaba computing platform-Alink 名稱的來自相關名稱的公共部分:Alibaba,Algorithm,AI,Flink,BlinkCommon part of related words:Alibaba,Algorithm,AI,Flink,Blink-同時支持批式/流式算法,提供豐富的算法庫Provides rich algorithm library,supports batch/stream algorithms-幫助數據分析和應用開發人員能夠從數據探索、模型訓練、實時預測、可視化展示,預測服務部署,端到端地完成整個流程。Help data
3、 analytics and application developers complete the process from end to end with data processing,feature engineering,model training,and prediction.2019年11月 在 Flink Forward Asia 大會上宣布開源Alink open source at Flink Forward Asia 2019-https:/ 任務啟動(批/流)TF 自定義腳本SPSC數據隊列進程拉起進程間通信遠端文件管理集群信息收集(批/流)數據Rebalance(批
4、/流)任務配置TF 腳本+Alink 模型存儲DL 組件基類(批/流)Java推理與深度算法庫的結合KerasEasyTransfer結合Alink特征工程Bert句嵌入文本分類模型部署分布式setup“敏捷化”底層機制多層次組件體系DeepAR/LSTNet深度學習示例貓狗分類數據集來自 Recall:0.9376F1:0.9493LogLoss:0.1357|PredReal|dog|cat|-|-|-|dog|1188|48|cat|79|1185|新算法新算法流式特征工程流式特征工程流式特征工程時間序列深度學習機器學習推薦異常檢測流式特生生成 使用簡單PartitionCols:分組統
5、計的列TimeCol:時間列Clause:統計量窗口參數 和Alink其他功能組合使用,用途廣泛聚合函數列表Alink教程 附錄 Alink支持的聚合函數鏈接:https:/ 00:00:00 2014-02-03 00:00:00用戶:MT-006數量:2976個采樣點數據鏈接:https:/archive-beta.ics.uci.edu/ml/datasets/electricityloaddiagrams20112014時間序列例子new HoltWintersBatchOp().setValueCol(data_series).setPredictionCol(holtwinters
6、_pred_series).setFrequency(96).setDoTrend(true).setDoSeasonal(true).setPredictNum(672)new ProphetBatchOp().setValueCol(data_series).setPredictionCol(prophet_pred_series).setPredictNum(672)時間序列例子新功能新功能推理組件加速推理組件加速為什么加速推理組件加速在線預測,批量預測提升推理速度1提升CPU利用率相同任務和時間,使用更少的資源減少資源使用量23充分利用資源為什么加速解決方案Java方面的優化12C/C
7、+加速優化360 機器學習算法平臺團隊開發了 Clink,支持Alink 特征工程模型多線程,線程安全過程優化,減少序列化、內存操作多線程加速FM modelt0t0FM modelFM modelt0t0FM modelgb modelt0t0gb modelgb modelt0t0gb modeloh modelt0t0oh modeloh modelt0t0oh modelt0t2t0t1t2t0t1t2t3t0t2t0t1t2t0t1t2t3FM modelFM modelgb modelgb modeloh modeloh model新功能新功能模型流模型流模型流:業務場景一Data
8、 000:00-12:00Data 100:30-12:30Data 201:00-13:00Data Nxx:xx-xx:xxData N+1xx:xx-xx:xx Model 0Model 1Model 2Model NModel N+1 Kafka數據實時預測結果輸出Kafka數據Ftrl 算法模型輸出模型流:業務場景二Model 000:00Model 100:30Model 201:00Model Nxx:xxModel N+1xx:xx 評估通過評估不通過評估通過評估不通過評估通過 Kafka數據實時預測結果輸出模型流:業務場景三特征工程編碼實時模型預測結果輸出Kafka數據Fea
9、tureModel 0FeatureModel 1FeatureModel 2FeatureModel NFeatureModel N+1Data 000:00-12:00Data 100:30-12:30Data 201:00-13:00Data Nxx:00-xx:00Data N+1xx:30-xx:30 Model 0Model 1Model 2Model NModel N+1 模型流示例Data 000:00-12:00Data 100:30-12:30Data 201:00-13:00Data Nxx:xx-xx:xxData N+1xx:xx-xx:xx Model 0Model
10、 1Model 2Model NModel N+1 Kafka數據實時預測結果輸出trainData=AkSourceBatchOp().setFilePath(/Users/weibo/xxxxxxx/adult.ak)lr=LogisticRegressionTrainBatchOp().setFeatureCols(age,education_num).setWithIntercept(False).setStandardization(True).setLabelCol(label)model=lr.linkFrom(trainData)model.link(AppendModelSt
11、reamFileSinkBatchOp().setFilePath(/tmp/lr_model)BatchOperator.execute()predData=AkSourceStreamOp().setFilePath(/Users/weibo/xxxxxxx/adult.ak)pred=LogisticRegressionPredictStreamOp().setPredictionCol(pred).setModelStreamFilePath(/tmp/lr_model)pred.linkFrom(model,predData).print()StreamOperator.execute()新功能新功能Web UIWeb UIWeb UI 開發指南Alink WebUI 開發“快速上手”手冊https:/ WebUI git 地址https:/ UI!Alink教程(Java版,Python版)源代碼地址https:/