《陳迪豪-OpenMLDB以實時特征驅動實時智能決策.pdf》由會員分享,可在線閱讀,更多相關《陳迪豪-OpenMLDB以實時特征驅動實時智能決策.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、OpenMLDB:以實時特征驅動實時智能決策陳迪豪 第四范式演講嘉賓陳迪豪第四范式平臺架構師,OpenMLDB PMC Member目前擔任 OpenMLDB PMC 以及第四范式平臺架構師,曾擔任小米云深度學習平臺架構師以及優思德云計算公司存儲和容器團隊負責人?;钴S于分布式系統、機器學習相關的開源社區,也是HBase、OpenStack、TensorFlow、TVM等開源項目貢獻者。目 錄CONTENTS1.實時智能決策的工程化挑戰2.OpenMLDB 提供線上線下一致的實時特征計算3.社區生態和案例分享實時智能決策的工程化挑戰PART 01實時智能決策的工程化挑戰基于機器學習的實時智能決策
2、,需要毫秒級的實時計算能力基于機器學習的實時智能決策,需要毫秒級的實時計算能力解決方案響應時間準召率傳統規則系統200ms較差客戶自研系統50ms中等第四范式先知20ms優等、以某銀行反欺詐場景為例客戶需求:特征計算響應時間 20ms 內,高準召率的事中反欺詐系統銀行要求毫秒級業務響應分鐘分鐘/小時小時 級別級別兩大 AI 應用:感知類、決策類決策類硬實時計算真正滿足實時決策需求 實時數據、實時計算實時數據、實時計算流式計算為 Big Data 和 BI 設計硬實時場景蘊藏巨大商業價值,鮮有通用商業化產品Milliseconds 毫秒級毫秒級Seconds 秒級秒級批量計算Batch流式計算S
3、treaming硬實時計算Hard Real TimeAI無人車AI事中反欺詐量化交易航空航天現在市面上所謂的AI實時計算大都是流式計算實時智能決策的工程化挑戰基于機器學習的智能決策從離線開發到上線全流程基于機器學習的智能決策從離線開發到上線全流程數據 數據采集 數據存儲特征 離線特征探索開發 特征存儲和共享模型 模型訓練 超參數調優模型 在線推理 結果數據回流特征 實時特征計算 特征服務數據 實時數據流接入 實時請求離線開發實時線上服務部署上線結果反饋需求:線上線下一致的實時特征計算平臺實時智能決策的工程化挑戰事中反欺詐交易的實時特征計算事中反欺詐交易的實時特征計算工程化需求工程化需求1.線
4、上線下一致性2.低延遲、高并發、高可用卡號卡號刷卡金額刷卡金額刷卡時間(已排序)刷卡時間(已排序)0121122232022/01/12 02:00:00012159152022/01/12 06:00:0001215910002022/01/12 07:59:5501215920002022/01/12 07:59:57卡號卡號刷卡金額刷卡金額刷卡時間刷卡時間01215910002022/01/12 08:00:00卡號卡號刷卡金額刷卡金額過去過去10秒內:刷卡次數秒內:刷卡次數|刷卡最刷卡最大金額大金額|最小金額最小金額|平均金額平均金額過去三小時內:刷卡次數過去三小時內:刷卡次數|刷卡刷
5、卡最大金額最大金額|最小金額最小金額|平均金額平均金額01215910003|2000|1000|13334|2000|14|100301215910002022/01/12 08:00:0010s3h基于窗口聚合特征計算特征計算模型推理欺詐交易?欺詐交易?歷史交易表歷史交易表虛擬插入生成的特征生成的特征刷卡記錄刷卡記錄實時智能決策的工程化挑戰傳統特征開發:離線開發和線上服務分離,高成本投入傳統特征開發:離線開發和線上服務分離,高成本投入實時特征計算線上服務線上預估服務實時特征特征平臺特征平臺Database/C+工程化團隊離線特征計算離線開發線下模型訓練離線特征數據科學家Python/Spa
6、rkSQL計算邏輯一致性校驗實時智能決策的工程化挑戰線上線下不一致性可能的原因工具能力的不一致性 需求溝通的認知差Account Balance線上應用線上應用current“account balance”離線開發離線開發“account balance”as of yesterday離線開發離線開發線上應用線上應用=0 2 1標準差=0 2(Bessels Correction)PythonMySQL標準差實時智能決策的工程化挑戰線上線下線上線下一致性校驗帶來的高昂工程化落地成本一致性校驗帶來的高昂工程化落地成本對齊+校驗線下開發線下開發線上服務線上服務兩組 不同技能棧的開發人員投入兩套
7、系統的開發、運營OpenMLDB 提供線上線下一致的實時特征計算PART 02OpenMLDB 提供線上線下一致的實時特征計算OpenMLDB 發展歷程:從閉源走向開源開源前,跟隨第四范式 先知 平臺,在 100+場景 落地,覆蓋超過 300個節點。開源后,以開放姿態積極擁抱社區開發者、整合開源生態,提供商業化定制和支持。過往5年網點流量預測理財個性化推薦 信用卡現金分期精準營銷 營銷獲客風險管理 現金分期個性化推薦信用卡交易反欺詐欺詐養卡防控金融產品推薦信用卡申請反欺詐歷史客戶激活投顧客戶挖掘客戶流失預警貸前風險評分零售貸款反欺詐合規額度決策信用卡賬戶風險預警交易欺詐評分反洗錢可疑交易智能識
8、別個性化推薦RTIDB/FEDBRTIDB/FEDB(第四范式閉源)2021.6主要使用場景OpenMLDBOpenMLDB(開源/商業化)OpenMLDB 提供線上線下一致的實時特征計算OpenMLDB:開源機器學習數據庫,線上線下一致的特征平臺:開源機器學習數據庫,線上線下一致的特征平臺離線數據實時數據SQL一致性執行計劃生成器批處理 SQL 引擎(Spark)實時 SQL 引擎(自研時序數據庫)線下線上模型訓練模型推理使用使用OpenMLDBOpenMLDB,實現開發即上線,實現開發即上線,節省節省數月數月人天成本人天成本OpenMLDBOpenMLDB 抽象架構抽象架構原有流程原有流程
9、基于基于 OpenMLDBOpenMLDB 的流程的流程科學家研發工程師Step 1:特征腳本開發Step 2:重構,滿足線上低延時、高吞吐、高可用Step 3:線上線下一致性校驗科學家+研發工程師運維工程師Step 4:生產上線科學家 Step 1:特征腳本開發運維工程師 Step 2:一鍵生產上線OpenMLDB 提供線上線下一致的實時特征計算1.導入離線數據源2.離線特征計算3.SQL 部署上線離線存儲在線存儲4.接入在線數據源5.實時特征計算服務實時請求實時請求實時特征實時特征離線開發(離線模式)離線開發(離線模式)生產上線(在線模式)生產上線(在線模式)SQL時間窗口模型訓練Infe
10、rence從離線開發到線上服務完整流程從離線開發到線上服務完整流程OpenMLDB 提供線上線下一致的實時特征計算OpenMLDB 提供了一個 線上線下一致 的毫秒級 實時特征計算平臺 基于實時數據按需計算(on-demand)基于 SQL 定義特征 生產級平臺,分布式、可擴展、高可用 OpenMLDB 提供線上線下一致的實時特征計算核心組件一:線上線下一致性執行引擎核心組件一:線上線下一致性執行引擎l 統一的底層計算函數l 邏輯計劃到物理計劃的線上線下執行模式自適應調整線上線下一致性得到 天然保障OpenMLDB 提供線上線下一致的實時特征計算核心組件二:高性能實時核心組件二:高性能實時 S
11、QL 引擎引擎分布式實時 SQL 引擎主要模塊-ZooKeeper 元數據存儲和管理-Nameserver tablet 管理和故障轉移-Tablets-分布式 SQL 執行引擎-分布式存儲引擎:內存、磁盤雙存儲引擎-高性能、可擴展、高可用高性能、可擴展、高可用詳細線上引擎架構描述參見:https:/ OpenMLDB 提供線上線下一致的實時特征計算核心組件三:核心組件三:面向面向特征計算的優化的離線計算引擎特征計算的優化的離線計算引擎-多窗口并行計算優化-數據傾斜計算優化-SQL 語法擴展-針對特征計算優化的 OpenMLDB Spark 發行版Elapsed time(sec)Spark
12、3.0.0OpenMLDBOpenMLDB 提供線上線下一致的實時特征計算核心組件四:針對特征工程的核心組件四:針對特征工程的 SQL 擴展擴展LAST JOIN多行匹配時,僅匹配最新記錄WINDOW UNION跨表的 join 和窗口聚合操作(point-in-time),避免特征穿越OpenMLDB 提供線上線下一致的實時特征計算高級生產級特性,保證系統穩定性和可擴展性高級生產級特性,保證系統穩定性和可擴展性跨機房容災跨機房容災構建主從集群,進一步提升可靠性Real-Time SQL EngineSQLBuilt-in(DRAM)RocksDB(HDD/SSD)Storage Engine
13、線上內存線上內存/磁盤雙引擎存儲架構磁盤雙引擎存儲架構平衡性能和成本自動化在離線數據同步自動化在離線數據同步簡化運維操作,保證數據一致性一鍵數據恢復分片自動平衡智能診斷智能化運維和診斷智能化運維和診斷支持不同部署模式支持不同部署模式原生形態部署社區生態和案例分享PART 03社區生態和案例分享OpenMLDB 上下游開源生態上下游開源生態ModelOpsFeatureOps-OpenMLDBProductionOpsOnline Data SourcesDeploymentMonitoringOffline SQL Engine(external storage)Online Storage
14、EngineOnline SQL Engine(*built-in,in-mem)(*built-in)(*OpenMLDB Spark Distribution)DolphinSchedulerOffline Data Sources社區生態和案例分享基于基于 OpenMLDB 的特征平臺的特征平臺-可視化特征開發和管理界面-基于 DAG 的大型復雜特征開發輔助-特征靈活復用-特征血緣管理和版本管理-同時支持毫秒級實時特征、離線特征社區生態和案例分享OpenMLDB 案例案例 Akulaku 智能計算架構中的特征平臺智能計算架構中的特征平臺行為評分團伙模型反洗錢模型風險設備標簽地理位置標簽地
15、址評分設備唯一ID智能客服異常文本識別智能投顧微服務與容器管理異構計算調度參數搜索與優化微服務與容器管理在線特征數據庫高性能存儲知識圖譜推理組件圖數據庫粗排組件召回組件圖數據庫分布式鎖離線特征數據庫流式計算引擎離線計算引擎高性能存儲消息隊列模型訓練模型部署知識推理引擎智能應用模型計算層特征計算層場景驅動:場景驅動:OpenMLDB社區生態和案例分享Akulaku 智能風控場景,對智能風控場景,對 10 億條訂單進行窗口特征計算,億條訂單進行窗口特征計算,達到達到 4 毫秒延遲性能毫秒延遲性能場景驅動場景驅動:業務調用環節驅動,實時計算結果,現用現算具體方案具體方案:1)使用SQL作為離線和在線
16、的橋梁;2)在線基于時序數據庫做時間滑窗特征計算環節難點OpenMLDB 解決方案基于 OpenMLDB 的業務實現線上部署線上部署:低延遲,高時效性,盡可能反映數據變更線下分析線下分析:高吞吐量邏輯一致邏輯一致:線下分析和線上部署的邏輯需要完全一致場景:場景:近1天訂單個數實時計算數據量:數據量:10億條訂單數據/天需求:需求:實時更新,時間窗口實時滑動,存在復雜關聯需求測試結果測試結果:4毫秒 延遲社區生態和案例分享唯品會將 OpenMLDB 應用于商品及品牌個性化推薦場景,帶來特征開發迭代速度60%的提升樣本表樣本表用戶表Item表Item表注:樣本表:不同場景下的用戶行為表,包括曝光點
17、擊收藏用戶表:用戶側所有用戶畫像信息Item表:不同物料的全量信息表數據處理數據處理基于基于 OpenMLDBOpenMLDB 的特征工程的特征工程(靜態特征及特征組合)(靜態特征及特征組合)商品及品牌的商品及品牌的個性化推薦業務場景個性化推薦業務場景特征開發迭代速度特征開發迭代速度5 5人天人天 2 2人天人天DolphinScheduler部署部署監控監控社區生態和案例分享某頭部ICT公司將 OpenMLDB 用于實時商品個性化推薦場景客戶數據表基于基于OpenMLDBOpenMLDB的實時特征抽取的實時特征抽取小時級特征上線小時級特征上線數據分鐘級更新7.2億條訂單數據/天線上實時數據線上實時數據THANKS