云原生數據湖存儲的架構發展和數據治理-程力.pdf

編號:153037 PDF 23頁 9.92MB 下載積分:VIP專享
下載報告請您先登錄!

云原生數據湖存儲的架構發展和數據治理-程力.pdf

1、云原生數據湖存儲架構發展和數據治理數據湖存儲負責人/程力騰訊云數據湖存儲GooseFS介紹騰訊云原生數據湖存儲的架構數據湖存儲GooseFS大數據業務實踐數據湖存儲GooseFS模型訓練業務實踐數據湖存儲架構演進對象存儲 COS大數據AIHPC基因HadoopCompatible可架構智能緩存集群化部署FUSECompatibleNativeFS InterfaceS3Compatible渲染鑒權認證監控告警志管理COS 加速器元數據加速Data LakeGooseFSGooseFS數據湖三層加速架構數據湖三層加速架構:近計算端緩存:計算端 -緩存加速 元數據加速:數據端 -元數據加速 COS

2、加速器:存儲端 -數據加速AZ 1EMR AI ML K8SCOS 對象存儲GooseFS(Cache Accelerator)元數據加速器(Metadata Accelerator)數據加速器(Data Accelerator)AZ 2EMR AI ML K8SGooseFS(Cache Accelerator)數據加速器(Data Accelerator)IcebergIceberg計 計 算 算 端 端 加 加 速 速A AZ Z端 端 加 加 速 速存 存 儲 儲 端 端 加 加 速 速GooseFSGooseFS:CacheCache Accelerator:Accelerator:

3、運行在EMR/AI/ML/K8S集群內,基于集群MEM/SSD資源,提供Data Cache能力;熱數據緩存在Cache中,對象存儲保存全量數據;針對各種計算引擎,提供Data Locality能力;提供磁盤模式和內存模式,支持淘汰COSCOS加速加速器器:DataData AcceleratorAccelerator:AZ級部署,全SSD存儲介質,熱數據讀加速;提供Tbps帶寬,滿足高吞吐需求;提供ms級別時延;元數據加速元數據加速器器:MetadataMetadata AcceleratorAccelerator:提供文件系統級別元數據操作能力;Rename操作,無需Copy/Delete

4、數據;List操作,無頻控;每個Bucket,提供10萬 QPS;數據湖存儲數據湖存儲GooseFSGooseFS拓撲拓撲COS 對象存儲TablesHive MetaStore/DLF MetaStoresub-prefix(Partitions)FilesprefixMetadata Cache(RAM/SSD/HDD)H Hi iv ve e/I Ic ce eb be er rg g T Ta ab bl le e 預 預 熱 熱:Table相關的數據從COS對象存儲中,被加載到計算節點DataCache中。Data Cache(RAM/SSD/HDD)P Pr re ef fi ix

5、 x預 預 熱 熱:COS對象存儲中對應Prefix的Objects,被加載到計算節點DataCache中。MMe et ta ad da at ta aC C a ac ch he e:元數據被緩存到計算節點MetadataCache中,并通過RocksDB進行持久化。DataData CacheCache:支持Hive Table Level預熱,面向業務加速;支持Iceberg Table Leve預熱;支持Prefix Level預熱,按目錄加速;支持多種數據緩存淘汰策略,LRU/LRFU/TTL;支持緩存數據同步/異步寫入COS;MetadataMetadata CacheCache

6、:避免了大量的list operations;提高了Metadata 訪問性能;GooseFS 大數據業務加速EMR C oreNodeExecutorGooseFSWorkerExecutorSpark DriverSpark ExecutorGooseFSClientCOS 對象存儲C lient NodeSpark ContextEMRMaster nodeGooseFS MasterYarn Resource ManagerYarn Node ManagerEMR C oreNodeExecutorGooseFSWorkerSpark ExecutorGooseFSClientYarn

7、 Node ManagerGooseFS Master:和Yarn RM同節點;支持元數據持久化;支持Raft Based HA;支持RangerGooseFS Worker:Worker和計算Executor/Worker同節點,保證類似HDFS的數據本地性;支持內存模式和磁盤模式混合GooseFS client:Shaded client打入計算fat jar,同時支持原生的COSN schema和GooseFS schema開啟三層加速特性GooseFS on EMR(Spark/Hive/Presto/Impala)COS 對象存儲Near-Real Time IngestionDat

8、abase ChangesEventsReadOptimizedRealTimeBatchIncremental ProcessingInteractive Real Time QueryGoose FS(Cache Accelerator)GooseFS 支持數據湖結構化#goosefs table attachdb hive thrift:/HOSTNAME:9083 hive_db_name#goosefs table ls db_name table_name#goosefs table load db_name table_name#goosefs table free db_nam

9、e table_name#goosefs table stat db_name table_nameCREATE EXTERNAL TABLE sales(cs_sold_time_sk int,cs_ship_date_sk int,cs_bill_customer_sk int,cs_bill_cdemo_sk int,cs_bill_hdemo_sk int,.PARTITIONED BY(cs_sold_date_sk string)LOCATIONcosn:/bucket_1/data/catalog_salesCreate Namespace:Attach Database:Loa

10、d Table:Free Table:GooseFS(CacheAccelerator)gfs:/sales/data/cosn:/bucket_1/data/catalog_sales#goosefs ns create sales cosn:/bucket_1/data#goosefs table attachdb hive thrift:/HOSTNAME:9083 db_sales#goosefs table load db_sales sales#goosefs table free db_sales sales GooseFS(CacheAccelerator)GooseFS(Ca

11、cheAccelerator)salescatalog_salessalescatalog_salessalescatalog_salesGooseFS(CacheAccelerator)Detach Database:#goosefs table detachdb db_salesTablesHiveMetaStoreGooseFS Table(Hive/Iceberg)騰訊云AIGC大模型訓練場景能力矩陣GooseFS GooseFS AcceleratedAccelerated01010010101001001011110010101010100010100100101000101001

12、0010000100101010100010010100001010001001010010100100010100010001000100101100010010100100101101010101001COS Data LakeCUDACUDAAcceleratedAcceleratedTACOTACOAcceleratedAccelerated數據讀取快:數據讀取快:GooseFS數據加速,提供高性能存儲,為AI集群訓練快速提供數據訓練速度快:訓練速度快:高性能計算集群HCC通過自研服務器提供最新代次A800、H800實例。通過TACO Train加速套件,提供軟硬件協同優化,支持訓練性

13、能提升30%以上網絡交換快:網絡交換快:基于自研星脈網絡架構,提供最高3.2Tbps RDMA網絡,結合自研擁塞控制算法及TCCL集合通信庫加速分布式訓練通信效率A800/H800MEM/NVME SSDRDMA/DL FrameworkTraining DatasetTrained Model騰訊云高性能計算集群騰訊云高性能計算集群HCCHCC、TACOTACO訓練加速、訓練加速、GooseFSGooseFS數據加速,構建數據加速,構建AIGCAIGC大模型訓練和推理應用平臺大模型訓練和推理應用平臺Data數據湖存儲GooseFS提升訓練過程中的數據訪問性能GPU NodeGPU Node0

14、00101111010101010111100101010101000101001001010010010100010100101001010111000100100100010101000101010001010100100010100100010001000101010100100101001001010010101001010010001001010101010101010010010010101010010010000100101010100010010010000100100101000101010001000100010010100101001010010101010010100C

15、OS Data LakeCPUGPUGPU MemMEMGooseFS L1 CacheCPUGPUGPU MemMEMGooseFS L2 CacheNVMESSDNVMESSDGooseFS L3 CacheSSDMEM-BasedMEM-Based,10100TB,NLPGPTNVMENVME SSD-BasedSSD-Based,100TB1PB,ViT Diffusion|DALL-EAZ-BasedAZ-Based,110PB,Auto DriveLife Sciences0001010101001001001001010100101001001001010010110101001

16、00101001000010101010010010010010101001010010010010010101010EBEB,RawRaw DataData,TrainingTraining DataDataCOSCOS面向面向AIGCAIGC多種業務場景,根據多種業務場景,根據DatasetDataset大小、性能需求,大小、性能需求,GooseFSGooseFS提供包括提供包括MEMMEM、NVMENVME SSDSSD等多種緩存加速方案等多種緩存加速方案GooseFS根據訓練DataSet調度加速資源數據湖存儲數據湖存儲GooseFSGooseFS,通過對數據進行緩存和調度,從海量數據

17、中提取有價值的數據,高效投遞到計算節點,實現算存融合通過對數據進行緩存和調度,從海量數據中提取有價值的數據,高效投遞到計算節點,實現算存融合智能緩存數據流動高效調度算存融合GoGoo oseseF FS S CaCat ta al lo og gCollectionsDDDCollectionsDDD00010111101010101011110010101010100010100100101001001010001010010100101011100010010010001010100010101000101010010001010010001000100010101010010010100

18、1001010010101001010010001001010101010101001010100010001000001011010100100100001001010101000100100100001001001010001010101000101111100010001000010101000100010001001010010100101001010100010001001011111110001001001010010100010010101001DDDDDGoGoo oseseF FS SDaDat ta a P Po odsdsPrPro oc c P Po odsdsCSCS

19、I ITKTKE E:Te Ten nc ce en nt t K Ku ubeber rn ne et te es s1.query data2.deliver dataset3.load dataset4.launchCOS Data LakeGooseFS云原生數據湖存儲實現按需彈性擴縮容00010111101010101011110010101010100010100100101001001010001010010100101011100010010010001010100010101000101010010001010010001000100010101010010010100100

20、101010010010000100101010100010010010000100100101000101010001000100010010100101001010010101010010100010010101001COS Data Lake00010111101DatasetScale upScale down8x large,etcSmallGooseFSGooseFS 具備彈性伸縮能力,根據業務對性能的需求,實時在線擴縮容。業務結束后,可以選擇將具備彈性伸縮能力,根據業務對性能的需求,實時在線擴縮容。業務結束后,可以選擇將GooseFSGooseFS銷毀,降低成本。銷毀,降低成本。

21、核心功能特性:核心功能特性:1.Scale up:性能(吞吐、IOPS)和容量同時擴容;2.Scale down:性能(吞吐、IOPS)和容量同時縮容;3.Destroy:實例被銷毀;DestroyGooseFS數據湖搭建混合云大模型訓練平臺0000010100101000100101001010010100101001010001001011010010100010010101001COS Data Lake0000010100101000100101001010010100101010100101Tencent Public CloudIDC/Private CloudGooseFSGoo

22、seFSGooseFSGooseFS數據持久化存儲在數據持久化存儲在COSCOS DataData LakeLake中,訓練數據按需通過中,訓練數據按需通過GooseFSGooseFS拉取到云上或者拉取到云上或者IDCIDC計算端,做到一份計算端,做到一份DatasetDataset,多地訓練,多地訓練GooseFS:完善的運維、監控能力GooseFS 提供 部署、安全、監控、告警等全流程運維能力以及對應工具。騰訊云數據萬象內容審核,為AIGC數據安全保駕護航Prompt請畫一幅日落的山水畫Model outputText-ImageText-VideoText-Text數據萬象內容審核AIG

23、C模型Generate ContentText input國家網信辦就國家網信辦就生成式人工智能服務管理辦法(征求意見稿)生成式人工智能服務管理辦法(征求意見稿)公開征求意見,強調利用生成式人工智能生成的內容,公開征求意見,強調利用生成式人工智能生成的內容,要符合合規要求要符合合規要求色情內容政治敏感性感廣告營銷暴力恐怖宗教違禁違法特殊物品圖片審核文本審核音頻審核視頻審核自動駕駛訓練場景數據湖存儲 GooseFS WorkerCOS 對象存儲ImagesCOS 對象存儲Raw datacameraLIdarRadarGPU訓練集數據預處理服務(EKS:serverless kubernetes

24、)GPU訓練任務集群(黑石 GPU+GooseFS)PreprocessingPodPodPodGooseFS Worker annotations標注后的圖片訓練集IDC數據中心TStor OneCOS專線DatasetsGooseFS WorkerGooseFS Master路采車原始數據處理后訓練數據騰訊云訓練數據緩存到GooseFS 客戶需求客戶需求數據增長快,年100PB量級,不具備大規模存儲自建和運維條件;業務涉及多計算平臺,需要支持多種協議同時訪問數據;訓練平臺需要高性能存儲,提升訓練效率;方案描述方案描述海量數據存儲:公有云COS數據湖提供彈性、低成本存儲服務,存儲全量原始路采

25、車數據,以及預處理后的數據。合肥本地數據中心,通過OneCOS提供百PB存儲空間,存儲短期熱數據;數據預處理平臺:TKE+GooseFS,做為圖片處理(截幀,轉換,脫敏)平臺,處理后的數據存放到COS,用于自動駕駛模型訓練;自動駕駛訓練平臺:COS上的訓練數據,通過GooseFS提前預熱,加速GPU訓練IO性能,提升訓練效率;方案價值方案價值公有云COS和本地OneCOS為用戶提供了海量、低成本存儲服務,解決客戶數據快速增長需求。通過100Gb專線,數據在COS和OneCOS之間自由流動,幫助客戶構建了自動駕駛混合云平臺;GooseFS作為高性能存儲緩存服務,通過HDFS,POSIX,對接數據

26、預處理和訓練平臺,通過數據緩存能力,幫助自動駕駛訓練性能幫助自動駕駛訓練性能提高提高30%30%;100Gb專線ETLETL:對原始采集數據進行預處理,借助于大數據平臺,GooseFS通過HDFS接口訪問數據,大文件讀,小文件寫,高帶寬;LabelingLabeling:對預處理后的數據進行標注,借助AI自動化平臺、或人工平臺,GooseFS通過POSIX接口訪問數據,小文件寫,低時延;TrainingTraining:對標注后的訓練集數據進行自動駕駛模型訓練,借助訓練平臺,GooseFS通過POSIX接口訪問數據,小文件讀,高IOPS,低時延;ScenarioScenario RepoRep

27、o:通過預處理后的數據來模擬特定場景,驗證感知算法,GooseFS通過POSIX接口訪問數據,大文件讀,高帶寬;EnduranceEndurance RunRun:通過使用原始數據回放來進行仿真,驗證自動駕駛模型算法,GooseFS提供POSIX接口訪問數據,大文件讀,高帶寬;自動駕駛訓練各流程如何使用GooseFS數 數 據 據 預 預 處 處 理 理、標 標 注 注、模 模 型 型 訓 訓 練 練Volume RawValidDatasetPOSIXCOS/S3HDFSETLLabelingTrainingPOSIX感 感 知 知 驗 驗 證 證Volume RawValidPOSIXHD

28、FSETLScenarioRepo仿 仿 真 真 驗 驗 證 證ValidPOSIXEndurance RunGooseFS PageStore模式優化小文件隨機讀GooseFS備機讀取優化元數據OPSGooseFS單集群目前元數據OPS是主要瓶頸。GooseFS是主從結構,在高可用模式下,有一個Leader Master和若干Follower Master做備份,下個迭代GooseFS支持Follower Master承載跟Leader一樣的讀流量,元數據OPS成倍數增加。測試環境元數據List QPS同比提升將近4倍。優化后高于HDFS元數據List QPSGooseFS元數據卸載TiKV GooseFS元數據管理從本地Memory+RocksDB升級到分布式TiKV。利用CVM支持的Numa綁核綁內存部署TiKV進程,單節點可以部署多個TiKV進程。節點占用單盤三副本文件數壓測穩定在54億,雙盤穩定在102億文件總量。*灰線為單盤灰線為單盤RocksDBRocksDB;藍線為單盤;藍線為單盤TIKVTIKV;紅線為雙盤;紅線為雙盤TiKVTiKVGooseFS元數據性能:元數據性能:RocksDB vs TiKV更多產品信息歡迎參考騰訊云存儲公眾號!

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(云原生數據湖存儲的架構發展和數據治理-程力.pdf)為本站 (張5G) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站