vnd.openxmlformatsofficedocument.presentationml.pdf

編號:149562 PDF 32頁 13.41MB 下載積分:VIP專享
下載報告請您先登錄!

vnd.openxmlformatsofficedocument.presentationml.pdf

1、DataFunSummit#2023泰康人壽針對大健康領域特征構建湖倉一體數據平臺的設計實施、改良優化與應用實踐演講人:田昕峣 泰康人壽總公司 數據研發工程師致謝本次技術分享的匯報離不開多方支持,故演講人在此一并表示鄭重且真誠地感謝。首先,感謝泰康保險集團、泰康人壽的領導層,特別是泰康人壽科技創新中心 周雄志 總、付剛 總對于本次匯報的鼎力支持與提供的各項幫助,并給予內容創作者極大的創作自由和多方面的指導與鼓勵;其次,感謝泰康人壽數據架構資深專家工程師 王可 老師作為直接技術指導對本次分享內容脈絡和宏觀與微觀技術進行的全面總體把控,以及泰康人壽高級總監 周勇 經理對匯報內容進行多次精心的審核與

2、指導并提出寶貴的整改意見,使得匯報內容在技術性與專業性上盡可能地做到全面且細致;最后,本次技術分享的成功匯報還離不開平安人壽大數據架構師 杜天敏 前輩的引薦,以及此次 DataFun Summit2023 線上湖倉論壇的組織者 洪飛 老師對于整體流程的統籌與協調。在他們以及 DataFun 社區提供的優質平臺及其相關人員的共同努力下,方才使本次分享的各個環節均做到了盡善盡美;此外,對于其他對本次技術分享作出貢獻的老師與同仁們,以及使用寶貴周末時間來聆聽此次匯報的聽眾朋友們,演講人在此一并表示感謝。演講人:泰康人壽 數據研發工程師 田昕峣01數據平臺建設背景Introduction&Backgr

3、ounds02相關技術概念Related Technical Concepts目錄 CONTENT03數據湖技術選型Datalake Selection Methodology04湖倉一體架構設計與實施Lakehouse Architecture05數據湖功能擴展與優化Datalake Feature ImprovementsBased on Apache Hudi06落地場景與應用成果Application Secnarios&Achievements07后續工作Further Works08討論與問答Questions&AnswersDataFunSummit#202301數據平臺建設背景

4、大健康領域核心板塊示意圖注:圖片繪制參考自中商產業研究院:2021年“十四五”中國大健康產業市場前景及投資研究報告https:/ IT 成本;然而,公司規模的不斷擴大和業務的持續發展,導致的“數據孤島”現象亦愈發明顯。企業級數據資產被妥善管理的難度呈增大趨勢企業決策層與管理層對企業整體的數據資產產生宏觀認知并決策的難度較大。企業級數據價值被有效發掘的成本呈指數增加的趨勢面對行業內的新機遇和新挑戰時,數據的潛在價值被及時發掘的成本較高。數據工具零散分布,數據處理各環節形成合力的愿景面臨挑戰數據采集、數據注入、數據治理、數據處理與加工、數據分析等工具分布零散,使用和開發效率有待通過集中的方式進一步

5、提高。DataFunSummit#202302相關技術概念湖倉一體架構相關技術概念數據湖(Data Lake)數據湖是一個集中式的數據存儲,以原始形式攝取和存儲大量數據。進入數據湖后,數據便可以被加工處理并被用作各種分析需求的原材料。由于其開放、可擴展的架構,數據湖可以容納來自任何來源的所有類型的數據,從結構化(數據庫表、Excel 工作表)到半結構化(XML 文件、網頁)再到非結構化(圖像、音頻文件、推文),所有這些都不會犧牲保真度 1(翻譯自演講者,定義由 Microsoft 給出)。數據倉庫(Data Warehouse)數據倉庫或企業數據倉庫(EDW)是一種將來自不同源的數據聚合到單個

6、集中式一致數據存儲中的系統,以支持數據分析、數據挖掘、人工智能和機器學習。數據倉庫系統使組織能夠以標準數據庫無法做到的方式對大量(TB 和PB 級別)的歷史數據進行強大的分析 2(翻譯自演講者,定義由 IBM 給出)。湖倉一體(Data Lakehouse)數據湖倉是一個數據平臺,它將數據倉庫和數據湖的最佳方面合并到一個數據管理解決方案中。數據湖倉尋求解決數據倉庫和數據湖的核心挑戰,為組織提供更理想的數據管理解決方案 3(翻譯自演講者,定義由 IBM 給出)。1 https:/ https:/ https:/ Consider Dimensions社區相關情況(發展態勢)Community M

7、omentum功能與特性Features性能指標Performance社區總體活躍情況Overall Activities主要貢獻者來源Contributor Locations問題反饋及解決情況Problem Feedbacks主流數據湖開源社區總體情況注:數據采集時間段 From 1st/Dec./2022 To 31st/Dec./2022主流數據湖主要貢獻者來源Delta LakeApache HudiApache Iceberg數據及圖片來源:1 https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-icebe

8、rg-lakehouse-feature-comparison主流數據湖社區的問題反饋及解決情況注:由于社區參與的直觀感受和氛圍難以使用數據量化評估,故此處我們僅截取部分參與社區的過程進行展示,以 Hudi 社區為例。主流數據湖功能特性對比注:相關功能特性分別來自三者的官方網站和官方技術文檔,此處我們予以歸納總結。主流數據湖性能指標基線測試【圖 1】開源社區給出的三大數據湖組件的基線性能測試 1,2,3【圖 2】團隊內部使用保險受理業績數據集進行的基線性能測試1 https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-ic

9、eberg-lakehouse-feature-comparison2 https:/brooklyndata.co/blog/benchmarking-open-table-formats3 https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-transparent-tpc-ds-lakehouse-performance-benchmarks技術選型結果活躍的社區,多樣化的貢獻者,以及良好的發展勢頭具備滿足需求的關鍵數據湖功能與特性,且對 Apache Flink 具有良好的適配滿足業務需求的性能Apache HudiDataFunS

10、ummit#202304湖倉一體架構的設計與實施泰康人壽“湖倉一體分布式數據平臺”宏觀架構架構實施中的組件版本選型注:版本選型中若存在多個版本,則表示架構中相應組件進行過版本升級DataFunSummit#202305數據湖功能擴展與優化泰康方案:打造“長壽、健康、富足”的“三大閉環”泰康“三大閉環”戰略概覽 長壽=保險+養老 健康=保險+醫療 富足=保險+養老金與資產管理功能擴展1:基于主鍵的多字段分片插入更新功能【圖 1】優化前數據湖的持久化數據湖每次增量插入(UPSERT)操作都會僅保留與自己相關的信息而將其他列抹除,最終數據湖內只包含最新插入更新的分段范圍的數據?!緢D 2】優化后數據湖

11、的持久化數據湖可以直接將多段信息整合成一行完整的記錄,最終數據湖內將會保留含有全部字段的數據。功能擴展2:基于多個事件時間字段的數據準確性保障機制【圖 1】未使用數據準確性保障機制由于數據延遲或其他原因導致數據的狀態沒有按照既定的順序抵達數據湖,則數據最新的狀態被舊狀態覆蓋,導致數據產生錯誤?!緢D 2】已使用數據準確性保障機制判定入湖的數據是否具備最新的事件時間,并對延遲數據或不正確數據進行自動篩查和處理,保證數據湖中的狀態始終處于最新。功能擴展的綜合應用(Apache Hudi RFC-59)注:其原理的詳細闡述及類與接口的詳細設計請見:https:/ OLAP 分析合規監管1200+300

12、TB100+調度任務總數管理數據規模實時任務總數豐富多樣的業務場景DataFunSummit#202307后續工作后續工作在保障易用性的前提下持續集成更多組件以滿足大健康領域豐富的業務需求由于近年來大健康領域的迅猛發展,業務方對于數據的需求也變得前所未有地多樣化。使用湖倉一體架構集中對數據進行集中治理只是一個開端,數據價值的真正體現往往離不開實際的應用。因此,在后續對更加豐富的數據應用的支持(包括對機器學習、深度學習模型的適配、對推薦算法或更復雜決策系統的支持等)將會成為湖倉一體架構發展的首要目標。進一步完善平臺的監控機制、容錯機制以及災害恢復機制,以持續提升平臺的健壯性和可靠性作為整個公司新

13、的數據類基礎設施,湖倉一體數據處理平臺將會在未來治理種類更加豐富、數量更加龐大的業務數據。因此,作為基礎設施的健壯性與可靠性就變得尤為重要。如何在持續集成眾多組件的同時始終保持數據平臺的高可用性將會成為后續工作關注的重點。根據大健康領域的業務特點對底層數據湖組件進行持續優化與所有的業務相同,大健康領域的相關業務也具備區別于其他領域的獨特性,這在保險與醫養和資管相融合的業務場景中體現的尤為明顯。如何借助數據湖組件 Apache Hudi 中提供的眾多可自定義特性(e.g.Customized Filters,Customized Payloads,etc.)來最大程度地適配大健康領域的業務特征,

14、并優化其作為底層數據基礎設施的性能,也是在后續工作必不可少的環節。參考文獻 References-1 Microsoft-Whatis a Data Lake?https:/ IBM-What is a data warehouse https:/ Vinoth Chandar-Apache Hudi-The Data LakePlatformhttps:/hudi.apache.org/blog/2021/07/21/streaming-data-lake-platform/-4 Apache Iceberg-Official Websitehttps:/iceberg.apache.org

15、/-5 Apache Hudi-Official Website https:/hudi.apache.org/-6 Delta Lake-Official Websitehttps:/delta.io/-7 Onehouse-Apache Hudi vs Delta Lake-Transparent TPC-DS Data LakehousePerformance Benchmarks https:/www.onehouse.ai/blog/apache-hudi-vs-delta-lake-transparent-tpc-ds-lakehouse-performance-benchmark

16、s-8 IBM-What is a data lakehouse?https:/ Apache-Briefing:The ApacheWay https:/www.apache.org/theapacheway/-10 ApacheHudi-Syncingto Hive Metastore https:/hudi.apache.org/docs/syncing_metastore/-11 Trino-Hive connector https:/ Xinyao Tian-ApacheHudi 使用文件聚類功能(Clustering)解決小文件過多的問題https:/ Xinyao Tian-通過源代碼修改使 Apache Hudi 支持 Kerberos 訪問 Hive的功能https:/ 中華人民共和國中央人民政府-健康中國行動(20192030年)https:/ 中商產業研究院-2021年“十四五”中國大健康產業市場前景及投資研究報告 https:/ 唐均-大健康與大健康產業的概念、現狀和前瞻:基于健康社會學的理論分析 https:/ 陳東升-幸福有約第一課 https:/

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(vnd.openxmlformatsofficedocument.presentationml.pdf)為本站 (2200) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站