1、MaxCompute 對開源系統的支持與融合高級專家 藝卓-2017MaxCompute 2.0 2016阿里自研的大數據計算平臺MaxCompute 支持 OpenSourceMaxCompute 和開源 2017阿里自研的一站式大數據解決方案MaxCompute 融合 OpenSourceMaxCompute 2.0開源的層次協議及工具編程接口計算引擎MaxCompute 2.0開源的協議及工具 JDBC對接已有軟件提供標準 JDBC 編程接口 Hive Proxy提供 Hive Thrift 協議兼容接口對接 Hive 社區已有工具 ETL 工具JDBCApacheZeppelinSQL
2、 Workbench/JTalenDPentahoQlikMaxCompute 2.0開源的編程接口 MaxCompute SQL 2.0 兼容 Hive 類型系統 兼容 Hive 內建函數 兼容 Hive 用戶定義函數 支持 External Table CTE/INSERT/JOIN/UNION 等語句增強MaxCompute 2.0開源的編程接口 RODPS 直接操作 MaxCompute 數據 支持 R 生態已有工具及代碼庫MaxCompute 2.0開源的編程接口 PyODPS 高度兼容 Pandas DataFrame 直接賦予社區代碼大數據計算能力 對接 Jupyter Note
3、book 等社區生態后端編譯成MaxCompute SQL 執行MaxCompute 2.0開源的計算引擎優點:快速搭建 學習資料 保護代碼投資缺點:數據分散 數據一致問題 資源效率SparkDruidDrillFlinkKylinElasticSearchPrestoMaxCompute 2.0聯合計算平臺開源計算引擎更好的MaxCompute開源的計算引擎 保持自研優勢擁抱開源生態 數據存儲統一 資源調度統一 安全控制統一MaxCompute 2.0資源調度數據集成用戶、權限體系安全隔離挑戰MaxCompute 2.0YarnClientYarnAppMasterYarnContainer
4、YarnContainerHistoryServerBrowser聯合計算平臺架構MaxCompute 2.0YarnClient*YarnAppMasterYarnContainerYarnContainerHistoryServerBrowserCupidMasterCupidWorkerCupidWorkerCupidTaskAgentServerProxyServer聯合計算平臺架構用戶認證鑒權受控讀寫數據容器隔離開源代碼受控 Web 訪問統一資源調度MaxCompute 2.0val sc=new SparkContext(conf)val odpsOps=OdpsOps(sc)va
5、l words=odpsOps.readTable(project,tableIn,readTransfer)val wordCounts=words.map(x=(x,1).reduceByKey(_+_)odpsOps.saveToTable(project,tableOut,saveTransfer)spark-submit-master yarn-cluster-class com.aliyun.odps.spark.example.WordCount.jarMaxCompute 2.0Java SDKPYODPSMaxCompute Restful APIJDBCdriverETLToolDataframe(Pandas)MaxCompute Tasks(SQL、MR、PAI)HiveProxy總結與展望:與開源融合的一站式大數據解決方案RODPS聯合計算平臺(Spark,ElasticSearch)OpenSource API(Spark,ElasticSearch)飛天協議接口引擎MaxCompute 2.0