1、Flink如何實時分析Iceberg數據湖的CDC數據 阿里巴巴 李/松/胡爭 23選擇 Flink Ic+b+1g #2 常DCCDC 分析方案 #1 如3實時寫 4F取 # 未來規劃 #4 #見的CDC分析方案 #1 離線 HBase 集u分析 CDC 數a 、CDC記錄實時寫入HBase。高吞P + 低延遲。 2、小vSg詢延遲低。 3、集u可拓展 ci評C B點 、行存o引不適O分析A務。 2、HBase集ur護成e較高。 3、通過Re12o4Server定DHF23e, ServerlB化Rs存完H用不上。 4、數a格式q定HF23e,不cF拓展到 +arquet、Avro、Orcn
2、。 t點 A3a/21 Kudu 維護 CDC 數據p 、支持L時更新數據,時效性佳。 2、CK加速,適合OLAP分析。 方案評估 優點 、cedKudup群,a較小眾。維護 O本q。 2、H HDFS / S3 / OSS 等D裂。數據c e,且KAO本不如S3 / OSS。 3、Kudud批量P描不如3ar4u1t。 4、不支持增量SF。 h點 直接D入CDC到Hi2+分析 、流程能E作 2、Hi2+存量數據不受增量數據H響。 方案評估 優點 、數據不是CR寫入; 2、每次數據D致都要 MERGE 存量數據 。T+ 方GT新3R效性差。 3、不M持CR1ps+rt。 缺點 SCaDk +
3、)=AFa IL()(數據 MER,E .NTO GE=DE US.N, chan=E ON GE=DE.GE=D.=E.GE=D. WHEN MAT(HE) AN) +LA,=H)H THEN )ELETE WHEN MAT(HE) AN) +LA,H)H THEN UP)ATE a=E.aD=EE=E WHEN NOT MAT(HE) THEN .NSERT (GE=D., a=E.GE=D.=E.a實時l入daGa Aak=W數t分析。 示V U2,)TE G=FG SET a = a + 1 W0ERE a (100 U2,)TE G=FG SET (1,2 W0ERE a=0 )1, b=0 QH=Ey特點 1. b攜帶S意過濾條R; 2. 不依賴k=y; 一般uWkn行的r有列y值e新值; 數t量 a條QH=Ey更新i量數t集a條QH=EyQ更新一行數t 計算模g 長耗時的sU