1、阿 里 巴 巴 大 數 據 智 能 技 術阿里巴巴數據技術及產品部王賽問題與挑戰Dataphin2 314阿里數據中臺普惠社會關鍵技術變革問 題 與 挑 戰大 數 據 團 隊 典 型 問 題分析師如何高效使用數據數據工程師如何最優建設數據團隊主管如何招聘數據專家數據流失存數據資產管數據孤島通采集&集成規劃設計連接萃取大 數 據 之 路 的 挑 戰跨數據源異構數據質量研發效能計算性能存儲成本標簽挖掘數據服務實體識別業務應用Dataphin:讓數據工作協同、智能化讓 一 切 一 起 協 作:數 據 工 作 臺 的 崛 起Matt TurckMaking everything work togeth
2、er:The rise of the data workbench。The 2017 Big Data Landscape國內專有云國際公共云國內公共云數據層管理及服務層工具層垂直數據中心全域數據中心萃取數據中心全域數據研發套件數據連接萃取套件調度運維監控工具智能數據建模及研發管理工具ID識別連接工具標簽畫像生產工具面向業務的、基于主題的統一數據服務統一數據資產及其管理技術內核智能計算框架業務邏輯模型垂直數據處理套件數據采集管理工具數據清洗及結構化工具數據同步集成工具數據建設&管理方法論OneServiceOneIDOneDataDataphin 產 品 架 構兼容多計算引擎標準化數據定義智能
3、物理模型從數據采集到數據服務全鏈路通全流程一體化通用產品+行業產品+專享產品向上多樣化賦能場景公共云+專有云+私有云向下屏蔽多計算引擎數據規范定義從業務源頭標準化數據標準化OneData方法論業務與產品&技術協同互助雙向聯動規范定義、建模研發、調度運維、技術內核工具化半自動化-智能化規劃計算和存儲元數據驅動智能化基于超強ID識別技術連接數據技術驅動數據連接OneID方法論超強ID識別、高效標簽生產、技術內核工具化孤島-高質量-高價值業務驅動技術價值化主題邏輯表屏蔽復雜物理表主題式數據服務OneService方法論一般查詢+OLAP分析+在線服務統一但多樣化數據服務屏蔽多種異構數據源跨源數據服務
4、數據引入數據規范定義數據建模研發數據連接萃取運維調度數據資產管理數據主題式服務智能數倉規劃基 于 Dataphin 數 據 建 設 標 準 流 程Dataphin:關鍵技術變革業務邏輯模型:物理表視角企業級業務視圖視角概念模型邏輯模型物理模型數據分析師數據工程師業 務 邏 輯 模 型 讓 協 同 變 得 簡 單商品天貓商品淘寶商品航旅商品子模型=父模型主鍵子集合+子類擴展屬性數據一致協同開發提升效能公共空間業務空間復用共享標準化數據定義:復用數據復用計算邏輯原子指標分析粒度業務限定派生指標統計周期比較型指標業務過程度量派生指標Y=f(原子指標,業務限定,統計周期,分析粒度)業務邏輯模型c1=f
5、1(x)c5=f5(x)c2=f2(x)c3=f3(x)c4=f4(x)臨時表自動選擇算子重組防傾斜處理物理表選擇優化智能計算引擎計算執行單元1計算執行單元2計算執行單元3MaxComputeHadoopSparkGreenplum智能計算引擎生成及優化代碼主 題 式 的 智 能 查 詢 技 術SQL On Physical TableSQL On Logical Model動態路由支持多平臺垂直拆分并行查詢虛擬物化視圖智 能 物 理 模 型 管 理c1c1c2c4c5c6c7c8c9c10K1K2K4K5K3K6K7TableATableBTableCTableA.keys=k1,k2,k3
6、TableA.colums=c1,c2c10TableB.keys=k1,k2,k3.k7TableB.colums=c1,c2,c3,c4,c5TableC.keys=k1,k2,k3TableC.colums=c5,c6,c7,c8計算依賴產出時間查詢相關性水平切分垂直切分阿里數據中臺普惠社會IaaS硬件及計算引擎服務器PaaSDataphin智能數據引擎SaaS通用工具|行業產品通用工具QuickBI|DataV|ADplus|行業產品Dplus|Oplus|智能分群|DaaS數據共享服務戰略決策應用數據庫計算引擎垂直數據處理套件數據采集管理工具|數據結構化工具|數據集成工具全域數據研發套件智能數據建模及研發工具|調度及運維工具 數據連接萃取套件ID識別連接工具|標簽畫像生產工具 Application行業應用,因行業而異,為客戶專享數據融通質量管理數據交換全鏈路營銷應用數據化運營應用智能CRM應用智慧零售應用數據管理與服套件統一數據資產及其管理工具|統一數據服務 阿里數據中臺打造云上大數據方案數據能力技術能力運營能力賦能全 方 位 賦 能 政 企 客 戶 建 設 大 數 據