《混合存儲架構中的數據編排.pdf》由會員分享,可在線閱讀,更多相關《混合存儲架構中的數據編排.pdf(9頁珍藏版)》請在三個皮匠報告上搜索。
1、混合存儲架構中的數據編排Saiguang|Alluxio內容列表數據訪問的主要命題1243Alluxio最佳適用場景Alluxio的緩存加速、命名空間、接口轉換基于Alluxio的數據管理5基于Alluxio的數據聯邦數據訪問的主要命題data localityHDFS RBFhdfs-fusedistcp單一分布式系統多系統,多中心內存,L1/L2緩存文件系統命名空間Virtual FileSystem數據備份,FS日志單臺服務器讀寫性能命名空間接口轉換數據管理其他功能(安全,審計,監控.)linux,mysqlhadoophdfs,obj store,presto,ml跨網絡傳輸對象存儲不
2、能掛載HDFS異構存儲系統接口不同異構存儲同步/備份/分層不同數據中心之間、數據中心和云之間、不同云服務區之間,網絡為珍稀資源;對象存儲對高并發讀寫限流;對象存儲egress高成本存算分離的網絡瓶頸Presto對接不同的數據源,架構設計限制了計算和數據的本地性;依賴GPU資源的PyTorch,TensorFlow等任務不能在其他節點執行;對象存儲系統有成本、運維的優勢,但是與HDFS不同,不支持在數據服務器上運行計算程序缺乏數據本地性單一數據中心不能滿足擴容需求;數據異地災備;在采集端進行數據預加工后再匯總多個自建數據中心云上資源的可伸縮性;使用云上最新的服務和技術;公有云對象存儲極低的邊際成
3、本;按用量付費自建數據中心+云服務提供商單一服務不能正常提供服務導致業務被“一鍋端”;廠商鎖死;不同云廠商對同一服務的定價和運維的能力不同;競價優勢多云服務提供商多系統,多中心架構的優勢-大勢所趨多系統,多中心架構的挑戰-機遇伴隨挑戰當前時代,上述命題不能依靠特定的存儲或者計算廠商去解決,Alluxio應運而生!Alluxio的最佳適用場景編排數據貼近計算,在存算分離場景下保證數據讀寫性能聯邦異構存儲系統,讓用戶通過統一命名空間訪問數據降低接口適配成本,為復雜系統提供通用協議轉換方案屏蔽數據物理位移,為運維人員提供自動化數據管理方案Alluxio解決特定場景中的數據訪問命題Alluxio的數據
4、緩存,命名空間,接口轉換數據緩存&元數據緩存RAM、SSD、HDD資源自控,無限流集群緩存&客戶端緩存TTL,pin/unpin,緩存類型無需管理持久化數據數據緩存命名空間接口轉換統一混合存儲命名空間(Unified Namespace)同一個掛載點掛載異構存儲(Union Mount)引入新類型的存儲系統(HDFS+S3)統一ML和Big Data的存儲系統(HDFS+Fuse)配合統一命名空間實現文件目錄(HDFS/NAS+REST)應用場景:熱數據放在HDFS中,冷數據放在對象存儲中分層策略:超過6個月的文件由HDFS遷移至對象存儲執行引擎:根據分層策略掃描目錄樹、遷移文件、錯誤重試等數
5、據轉移:數據的物理路徑被Union Mount屏蔽,物理位置的改變對應用層無影響基于Alluxio的數據管理AlluxioPDDM執行引擎AlluxioMaster 應用程序Union Mount數據遷移基于Alluxio的數據聯邦v云-AMetaStorev云-BMetaStorevIDCMetaStore數據流控制流注冊信息混合云中的數據自治和數據共享 通過使用多云、多數據中心,企業的各個執行單位在數據化的進程中表現得更加敏捷 數據系統圍繞部門、子公司、區域公司等組織結構形成數據孤島,妨礙數據資產的價值提升 傳統方法通過數據同步實現數據孤島之間的數據共享,但是面臨諸多挑戰 數據一致性(數據同步是否結束?)數據高冗余(數據生命周期如何管理?)運維復雜度(哪些數據需要同步?)管理復雜度(如何找到共享數據?)基于Alluxio的數據聯邦 為共享數據的注冊、發現提供中心化管理平臺 在庫、表、文件3個層級提供聯邦訪問 允許用戶同時訪問自治數據和共享數據 用戶訪問遠程數據時,按需緩存數據,避免數據同步 系統的改造為增量改造,業務部門仍然使用原有的工作模式來訪問自治數據加入社區,關注動態訪問項目G