基于 DolphinScheduler 構建分布式大數據調度平臺實踐_代立冬.pdf

編號:133701 PDF 34頁 3.86MB 下載積分:VIP專享
下載報告請您先登錄!

基于 DolphinScheduler 構建分布式大數據調度平臺實踐_代立冬.pdf

1、代立冬Apache DolphinScheduler PMC ChairApache Foundation Member Apache 孵化器導師基于基于 DolphinSchedulerDolphinScheduler構建分布式大數據調度平臺實踐構建分布式大數據調度平臺實踐Contents目 錄01Apache DolphinScheduler-新一代工作流任務調度平臺介紹02DolphinScheduler 架構設計迭代實踐03OceanBase 數據源實踐04DolphinScheduler Roadmap01Apache DolphinScheduler新一代工作流任務調度平臺介紹Do

2、lphinSchedulerDolphinScheduler 是一個云原生并帶有強大可視化界面的大數據工作流調度平臺Apache DolphinScheduler 簡介目前已累計有 3000+公司在生產上使用。DS 致力于在數據工作流編排中“解決復雜的大數據任務間的依賴及觸發關系,讓各大數據任務類型開箱即用”Apache DolphinScheduler UI簡單易用高可靠性去中心化的多 Master 和多 Worker,自身高可用能力采用任務隊列來避免過載,不會造成機器卡死一鍵部署 簡化部署,易維護可視化界面,所有流程定義都是可視化,通過拖拽任務形成工作流模板支持 Open API 方式與第

3、三方系統對接Apache DolphinScheduler 調度平臺特點高擴展性、云原生能力豐富的使用場景支持暫?;謴图巴V沟蓉S富操作支持多租戶,權限管理等大數據應用場景支持 30+種任務類型,如 Spark,Flink,Hive,MR,Python,Shell 等支持自定義任務類型調度能力隨集群線性增長彈性伸縮,Master 和 Worker 支持動態上下線Apache DolphinScheduler 調度平臺數據加工平臺任務監控總覽流程實例狀態查看任務執行狀態回溯任務執行日志查看數據源管理:可視化配置、多數據源格式支持1.支持可視化的數據源包括:MySql、PostgerSql、Hive

4、、Impala、Spark、ClickHouse、Oracle、SqlServer、DB2、MongoDB等。平臺采用插件式設計,支持自由擴展數據源支持。2.可視化的數據源管理,數據源統一集中管理,一次配置,到處使用,大大減少配置修改帶來的工作量。也方便后續數據血緣關系的處理數據源管理:可視化配置、多數據源格式支持1.支持多數據源數據的加工、數據導入導入腳本統一管理,包括python、shell、jar包、R等多種格式。2.多層級結構確保文件管理層次清晰,避免資源文件散亂難以維護。數據源管理:可視化配置、多數據源格式支持任務流程多策略支持確保ETL過程可管理:支持任務失敗策略選擇,失敗繼續或結

5、束支持多種通知策略1.失敗發送通知2.成功發送通知3.全部通知4.全部不發通知支持優先級設定,確保高優先級流程優先執行支持選定節點執行ETL任務流支持串行與并行兩種執行方式02DolphinScheduler 架構設計迭代實踐數據源管理:可視化配置、多數據源格式支持去分布式鎖設計1.X原先設計Master現狀MasterSchedulerService獲取分布式鎖同時輪詢command生成ProcesslnstanceMasterExecThread構建DAG輪詢工作流實例生成任務實例MasterTaskExecThread提交執行任務輪詢任務狀態取消/暫停/停止任務MasterWorkerW

6、orkerWorkerDBZKClusterAccess LockSend TaskSend TaskSend Task去分布式鎖設計新版本設計Master根據自己的分片編號采用合適的算法計算屬于自己的command的槽位Master根據槽位查詢數據庫獲得command,井生成processlnstance構造DAG,生成任務實例,提交執行任務MasterWorkerWorkerWorkerDBSend TaskSend TaskSend Task根據自己的分片編號計算Command槽位Master線程模型重構2.X版本設計MasterSchedulerServiceThreadPoolWor

7、kFlowExecuteThreadAPIStateEventExecuteServiceThreadPoolStateWheelExecuteThread負責從 Command 表中分片獲取 command,構造工作流實例,啟動 WorkFlowExecuteThread 處理負責構建 DAG,DAG 拆分,生成任務實例,提交到任務隊列;同時負責處理任務狀態和工作流狀態變化負責接收其他 Master/Worker 發過來的任務狀態和工作流狀態變化事件,并提交 WorkFlowExecuteThread 狀態處理負責任務/工作流超時監控新版本的Master端有那些變化01大幅減少Master的

8、線程使用02使用分片機制獲取命令隊列03增加狀態事件的處理機制04增加Master與Master之間的通信05增加Master的緩沖機制改造后的架構效果吞吐20倍提升05001000150020002500300035001master+1worker1 master+2worker1 master+3workertask throughputMaster:100 threads Worker:100 threads03OceanBase 數據源實踐DolphinScheduler&OceanBase 解決方案OceanBase 特性高可用 基于 Paxos 協議,強一致性 少數副本故障,數據

9、不丟,服務不停低成本 不依賴高端硬件,降低成本 極致的壓縮比,節省成本 兼容 MySQL 協議與語法 降低業務改造遷移成本 降低DBA學習成本高擴展 在線進行水平擴、縮容 自動實現負載均衡高兼容DolphinScheduler&OceanBase 解決方案OceanBase 在 DolphinScheduler 承擔數據源之一方便OceanBase 用戶更簡單快捷創建 SQL 任務低成本 極致的壓縮比,節省成本 多租戶,集群資源充分復用高擴展 存儲海量數據 性能和容量可線性擴展OceanBase 承擔 DolphinScheduler 元數據庫存放 DS 本身的各項關鍵信息高可用 保障服務不間

10、斷 容量不足時,可線性擴展 性能不足時,可線性擴展線性擴展04DolphinScheduler RoadmapApache DolphinScheduler 近期進展支持 SeaTunnel Zeta 引擎選擇解決多數據源數據每日出入數據庫以及每日出入倉同步數據問題,數據集群規模幾十臺,日均記錄數上千億,日均數據量在 100T 以上。解決從MySql,日志文件、Presto、Kafk a、Spa rk、ClickHouse 以及 Hudi 之間數據同步問題,覆蓋數十臺集群。動態任務插件支持 Remote Task 更好支持 Streaming Task K8S Operator 更好支持 St

11、reaming Task Easy to use更多請參考:https:/ Roadmap 有更多建議,歡迎郵件討論Apache DolphinScheduler Roadmap總體依照社區需求和關注度來安排功能優先級,做哪些功能由郵件討論決定聯通數科早期使用原商業調度系統支撐著全域數據平臺加工與調度,以接口機配合Shell(HiveSQL)為主的開發編排運維模式,處理日均數萬的流程實例和日均上百萬的 Job 作業,對比閉源調度工具、Airflow、Azkaban 后,最終選擇 DS。滿足業務需求和調度功能要求滿足大數據量要求用戶使用成本低Apache DolphinScheduler Use

12、 Case高性能、大批量數據調度早期使用 Airflow 調度全球任務,但因為分布式支持問題、無可視化問題導致系統開發效率和穩定性堪憂,同時也無法支持 K8S 和全球的云原生部署。選擇從Airflow 遷移至 DS。全球云部署、K8S支持分布式去中心化以保證穩定全量替換 Airflow解決全球大數據調度易用問題,賦能分析團隊快速開發調度任務全球云部署、易用數據開發過去大數據調度使用SQL/Shell/Python腳本和其他大數據組件完成整個AI流程,面臨不易用且難復用問題。使用基于DS的AI開發平臺后,荔枝FM將獲取數據、數據預處理、模型訓練、模型預測、模型評估和模型發布過程抽象成組件,用 D

13、AG 串聯,使用拖拽和配置的方式實現低代碼開發。實現對海量數據存算可以復用ML流程DAG 執行引擎AI/ML Ops調度融合Apache DolphinScheduler Use Case 360的應用321678459資源文件的在線上傳,管理jar 包不怕丟實現集群高可用集群去中心化支持多租戶咱倆不能用一個賬號權限管理我只能訪問授權的項目和資源各種復雜調度定時調度、依賴調度、手動調度豐富的任務類型可視化分布式易擴展無單點問題資源不夠了要擴容spark shell MR HIVE python拖拽生成 DAG工作流任務失敗重試/告警你想重試幾次 每次間隔多久失敗要不要發郵件告訴你?Apache

14、 DolphinScheduler SloganSUCCESS工具選的好調度用的對半夜安心睡下班回家早zApache DolphinScheduler 相關資源官網:https:/dolphinscheduler.apache.orgGitHub:https:/ 站:https:/ PR 開始,-找到帶有”easy to fix”標記或者一些非常簡單的issue,修復后提交PRThank you!GitHub:/oceanbase/服務號:OceanBase數據庫星球論壇:Thank you!GitHub:/oceanbase/服務號:OceanBase數據庫星球論壇:Thank you!GitHub:/oceanbase/服務號:OceanBase數據庫星球論壇:Thank you!GitHub:/oceanbase/服務號:OceanBase數據庫星球論壇:

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(基于 DolphinScheduler 構建分布式大數據調度平臺實踐_代立冬.pdf)為本站 (你丫力大嗎) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站