《字節 陳蘇安-字節跳動大數據平臺架構演進之路.pdf》由會員分享,可在線閱讀,更多相關《字節 陳蘇安-字節跳動大數據平臺架構演進之路.pdf(19頁珍藏版)》請在三個皮匠報告上搜索。
1、字節跳動大數據平臺架構演進之路字節跳動大數據平臺架構演進之路陳蘇安陳蘇安 火山引擎資深研發工程師火山引擎資深研發工程師個人簡介個人簡介 2018-2021 網易 大數據平臺研發 2021-至今 字節 云原生計算研發目錄目錄 字節大數據業務發展現狀和問題 字節云原生大數據實踐 未來規劃字節跳動大數據業務發展現狀字節跳動大數據業務發展現狀今日頭條今日頭條抖音抖音抖音火山版抖音火山版西瓜視頻西瓜視頻懂車帝懂車帝皮皮蝦皮皮蝦FaceuFaceu激萌激萌輕顏相機輕顏相機飛書飛書番茄小說番茄小說海量存儲空間EBsEBs千萬千萬 Core Core計算資源調度字節跳動大數據業務發展現狀字節跳動大數據業務發展
2、現狀云原生大數據組件管理和發布運維管理數據管理節點傳統傳統模式模式云原生模式云原生模式統一 Portal業務 1業務 2n業務 3業務 4運維 1運維管理數據管理節點運維 2運維管理數據管理節點運維 n資源按需調用,資源池統一調度Flink 集群Spark 集群Kafka 集群業務 1業務 2業務 3業務 4一鍵開通,按需部署,統一運維集群搭建耗時耗力,運維孤島和數據孤島資源獨占,峰值不滿足,平時有空閑字節跳動大數據業務發展現狀字節跳動大數據業務發展現狀元數據管理數據網關服務云原生 Flink云原生消息引擎平臺服平臺服務層務層租戶和用戶管理數據源管理生態整合服務資資源源調調度度層層組件管理日志
3、審計監控報警容災管理統一存儲(HDFS 或對象存儲)兼容 HDFS 語義 TOS 透明加速緩存加速核心引擎核心引擎層層實時服務分析引擎云原生日志搜索公共云 容器服務私有云-開源 K8s多云部署和調度統一資源池云原生 YARN云原生 Operator運維管理平臺權限管理項目管理作業開發任務調度數據湖管理集群管理多環境管理云原生大云原生大數數據平臺據平臺-功能架功能架構構一一覽圖覽圖字節云原生大數據實踐字節云原生大數據實踐-難點難點 傳統的大數據存儲組件 HDFS 如何上云 容器化平臺不具備與 YARN 隊列類似的資源管控能力 調度器不存在“作業”概念,不具備作業排隊&作業級調度策略 原生的大數據
4、作業在容器化提交后,往往狀態信息獲取不準確 大數據作業容器化部署后導致日志收集、監控告警變得復雜字節云原生大數據實踐字節云原生大數據實踐-大數據存儲大數據存儲NN ProxyNameNodeDataNodeDance ProxyDanceNNDanceBSDanceDNNameNodeDataNode開源開源 HDFS HDFSHDFS HDFS 聯邦聯邦CloudFSCloudFS聯邦統一元數據視圖,用戶流量統一轉發、業務流量統一管控利用 RocksDB 保存 NameSpace 元數據,突破單機內存限制支持云上的對象存儲,作為緩存層在云上提供 HDFS 協議使用 C+進行重構,避免大內存場
5、景下的 GC 停頓時間長的問題字節云原生大數據實踐字節云原生大數據實踐-大數據存儲大數據存儲存儲存儲引擎引擎數據數據底座底座DanceProxyQoS NsProxyQuotaAuthDanceNNNamespaceDanceBSBlockMgmtKV 存儲DanceDNMultiTier CacheBlockPoolStorage AdapterPortalDataManagementDataInsightObject Storage(Tos)Remote Disk(EBS)SSD/HDDOther Block Storage低成本:低成本:支持存儲空間線性擴展,降低成本;高性能:高性能:提
6、供高吞吐,高穩定的數據讀寫能力,讀取和寫入速度快。對業務的價值對業務的價值字節云原生大數據實踐字節云原生大數據實踐-大數據調度大數據調度容器化平臺不具容器化平臺不具備與備與 YARN YARN 隊隊列列類類似的似的資資源管控能力源管控能力調調度器不存在度器不存在“作作業業”概概念,不具念,不具備備作作業業排排隊隊能力,不具能力,不具備備作作業級調業級調度策略度策略API ServerK8s(VKE/VCI)QueueOperatorPodGroupOperatorOpJob Operator(計量、狀態)Flink NativeOperatorsDeploymentsStatefulSetsP
7、ods.Scheduler(Quota 管控、Pod 放置)GRO字節云原生大數據實踐字節云原生大數據實踐-大數據調度大數據調度更更靈靈活的活的資資源源調調度度支持 Min-max 調度,滿足彈性調度場景支持隊列優先級設置,保證高優先級業務 SLA獨享隊列 A獨享隊列 B大數據文件存儲資源隔離資源隔離更更豐豐富的富的調調度策略度策略GANG 調度支持流計算低延時要求多維度資源的公平策略(DRF),提升資源利用率字節云原生大數據實踐字節云原生大數據實踐-統一資源湖統一資源湖全局資源湖全局資源湖ResLake 具有資源的全局視圖、全局資源池維度 Quota 管控不限機房、不限集群,以最優化資源利用
8、率為最終的調度目標資源池管理資源池管理更好的隔離控制:除了 CPU/內存,還包括磁盤 IO、網絡帶寬多種資源調度策略:優先級調度、GANG、DRF 調度等單集群 Quota 管控與調度效率:QoS 更精細、效率更高更多的功能:隊列資源上報、作業狀態、計量、Event 等實踐案例實踐案例-跨數據中心容災跨數據中心容災CloudFS集群服務集群服務Reslake平臺服務控制面集群計算面集群計算面集群StreamStreamBatchBatch.StreamStreamBatchBatch.作業服務數據大數據平臺容災可可運維運維性更強性更強無需無需額額外操作,可自外操作,可自動動恢恢復復字節云原生大
9、數據實踐字節云原生大數據實踐-作業生命周期管理作業生命周期管理原生的大原生的大數數據作據作業業在容器化提交后,往往在容器化提交后,往往狀態狀態信息信息獲獲取不準取不準確確K8s(VKE/VCI)GRO 資源隔離&容器調度Application Manager作業生命周期管理PodSet Manager作業資源管理Engine Manager引擎定制管理.FlinkSparkArcee作業管理字節云原生大數據實踐字節云原生大數據實踐-監控鏈路監控鏈路集群組件平臺組件PrometheuspushgatewayPrometheusPrometheus數據面StorageQueryGrafana前端展示控制面集群1集群2集群3云監控云監控S3-StorageCloudFS自定義存儲作業字節云原生大數據實踐字節云原生大數據實踐-日志鏈路日志鏈路CollectorFilebeatLog ProxyCollectorFilebeatLog ProxyElasticsearch云日志服務日志搜索消息中間件(Kafka/BMQ)監控告警動態限流日志實時采集日志存儲服務未來展望未來展望大數據作業運維智能化公有云全面 Serverless 化私有云模塊化、輕量化交付了解更多了解更多技術實踐技術交流群THETHE ENDENDTHANKSTHANKS