當前位置：首頁 > 報告詳情

1-2 基于歷史查詢的 Impala 集群性能優化實踐.pdf

上傳人：云閑編號：102386 2021-01-01 PDF PDF 36頁 5.18MB

該報告所屬合集： DataFunSummit：2022年多維分析峰會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/36

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《1-2 基于歷史查詢的 Impala 集群性能優化實踐.pdf》由會員分享，可在線閱讀，更多相關《1-2 基于歷史查詢的 Impala 集群性能優化實踐.pdf（36頁珍藏版）》請在三個皮匠報告上搜索。

1、基于歷史查詢的IMPALA集群性能優化實踐溫正湖網易數帆-數倉技術負責人|01高性能數倉建設高性能數倉建設介紹網易大數據及高性能數倉建設方案03HBO優化實踐優化實踐介紹HBO在網易云音樂等業務場景使用實踐02HBO實現方案實現方案介紹管理服務器實現和基于歷史查詢的集群優化04未來發展計劃未來發展計劃介紹未來一段時間Impala和產品化的開發計劃目錄目錄 CONTENT|關于網易數帆網易數帆源自網易杭州研究院，是網易數字經濟的創新載體和技術孵化器，致力于成為領先的數字化轉型技術與服務提供商，為企業數字化轉型提供技術動力。依托網易集團二十余年互聯網技術積累，網易數帆聚合云計算、大數據、人工智

2、能等新型數字化技術，聚焦提供開放、穩定、安全、高效的數據智能、軟件研發、基礎設施與中間件等基礎軟件，致力于幫助企業客戶成功實現數字化轉型。云原生軟件生產力平臺云原生軟件生產力平臺全鏈路大數據生產力平臺全鏈路大數據生產力平臺多媒體智能開放平臺多媒體智能開放平臺全維度質量效能平臺全維度質量效能平臺網易數帆：網易旗下數字化轉型技術與服務提供商網易數帆：網易旗下數字化轉型技術與服務提供商網易有數網易有數華夏銀行音樂電商教育傳媒辦公郵箱物流農業零售金融教育能源工具產品平臺公共數據建設數據建設方法論制造醫藥記憶科技網易有數-Impala的定位交互式查詢：Impala批處理引擎：Spark+Kyuubi流計

3、算引擎：Flink/Sloth網易有數-Impala主要應用場景高性能數倉建設高性能數倉建設01|業務使用痛點分析|BI報表、Ad-Hoc、自助分析、取數和數據抽取共存時的SLA保障BI報表類業務追求實時性要求高，用戶耐受程度不超過5秒查詢的資源消耗預估不準確，執行計劃不合理，如大表廣播等元數據過舊導致查詢出錯，元數據未緩存導致查詢性能下降HDFS NN波動導致文件句柄打開性能，DN波動導致數據掃描耗時變長隨著業務的發展和新場景的引入，集群的SLA和性能變差，需反復治理高性能數倉-建設原則|收集和持久化impala歷史查詢信息，制作標準化圖表進行可視化展示多維度分析查詢規律并進行基于歷史查詢

4、的優化HBO（History-based Optimization）更高的性能，更強的功能：版本升級、執行引擎增強、物化視圖、虛擬數倉、數據緩存等更好的產品化體驗：元數據同步、集群管理自動化、集群信息可視化和可獲得性等高性能數倉-建設原則|為有數BI報告的“數據醫生”功能提供性能診斷數據有數BI等組件通過SQL注解，反哺Impala進行更智能的查詢分析將物化視圖能力集成到有數產品上訂閱和消費大數據血緣的數據產出消息，驅動統計信息計算、物化視圖更新等訂閱和消費Hive Metastore（HMS）的DDL日志，驅動元數據同步、物化視圖更新等依托網易大數據NDH（Netease Dat

5、a Hub）進行存儲優化，Z-Order、Page Index等高性能數倉-業務痛點解決方案|引入虛擬數倉虛擬數倉（virtual warehouse）對業務進行物理資源隔離提供基于zookeeper namespace和基于query option的虛擬數倉路由通過impalad多group name和coordinator多zk namespace來提高資源利用效率增強本地緩存本地緩存能力優化DataCache性能和使用范圍：LIRS算法、異步CacheFill、重啟可用等調優和擴大FileHandleCache來提高文件句柄緩存命中率提供統計信息自動計算統計信息自動計算能力通過

6、分析歷史查詢summary日志輸出待計算的表到配置可動態更新的白名單通過數據產出消息、定時和DDL日志驅動統計信息計算高性能數倉-業務痛點解決方案|提升計算能力，使用預計算技術升級Impala版本，提高性能基線通過MT-DOP，服務器多節點部署提高計算資源利用效率通過支持多表物化視圖多表物化視圖和透明改寫技術提升查詢性能支持緩存自動更新和異步加載通過訂閱HMS的DDL變更日志，高效驅動元數據緩存自動同步元數據緩存自動同步通過配置動態白名單，對失效的緩存進行異步加載異步加載建立Impala集群標準化報表統計集群每天的負載指標負載指標，包括查詢量、耗時、資源消耗等使用可視化報表（有

7、數BI產品）進行直觀展示直觀展示多維度分析負載指標的隨時間變化趨勢變化趨勢并作出相應決策HBO實現方案實現方案02|HBO信息來源-Impala管理服務器|1.1開啟enable_manager參數的coordinator會向statestore的topic注冊查詢的hostname,query_id2.2manager從statestore的topic上獲取注冊的hostname,query_id3.3,4manager根據hostname向對應的coordinator發送http請求制定query_id的查詢信息并保存到mysql中4.manager提供webui用于展示整個集群的查詢情

8、況5.5manager異步解析profile、SQL注解等查詢信息用于支撐HBO歷史查詢信息解析|新增查詢的排隊耗時、內存實際消耗、內存估算值、掃描的數據量等信息結構化保存profile、timeline和summary中的信息歷史查詢信息解析|新增查詢的排隊耗時、內存實際消耗、內存估算值、掃描的數據量等信息結構化保存profile、timeline和summary中的信息歷史查詢信息解析|新增查詢的排隊耗時、內存實際消耗、內存估算值、掃描的數據量等信息結構化保存profile、timeline和summary中的信息歷史查詢信息解析|新增查詢的排隊耗時、內存實際消耗、內存估算值、掃描的

9、數據量等信息結構化保存profile、timeline和summary中的信息歷史查詢信息解析|-By YouData(apiName:tableQuery)(userId:9349)(resourceId:c-1-36080-105714-kyqxpkt3)(timestamp:1654587547342)(isEdit:false)(trigger:User)(mvName:calcite_youdata21204_1653641141)(dataModelId:21204)(relatedResourceId:36080)(transId:nDTR74vZjm97Apa5WKzRd2)

10、-By UnciaDB(rewroteByMaterialization:calcite_youdata21204_1653641141,checkTime:3 ms,metadataLoadTime:7 ms,rewriteTime:25 ms)-By UnciaDB(HBOMemOpt:-1691677264,optimizeTime:1 ms,HBOEst:429.53 MB,HBOCoordEst:0.0 B)-By UnciaDB(table clipping optimization:0 ms)YouData為BI注解，UnciaDB為內部注解挖掘歷史查詢規律|按分鐘粒度分析集群查

11、詢次數、性能、內存和IO消耗等識別集群繁忙和空閑規律，進行資源分時調度分析隊列的查詢次數、排隊情況和排隊耗時統計集群的查詢耗時、查詢成功率等指標挖掘歷史查詢規律|按分鐘粒度分析集群的查詢次數、性能、內存和IO消耗等識別集群繁忙和空閑規律，進行資源分時調度分析隊列的查詢次數、排隊情況和排隊耗時統計集群的查詢耗時、查詢成功率等指標挖掘歷史查詢規律|按分鐘粒度分析集群查詢次數、性能、內存和IO消耗等識別集群繁忙和空閑規律，進行資源分時調度分析隊列的查詢次數、排隊情況和排隊耗時統計集群的查詢耗時、查詢成功率等指標挖掘歷史查詢規律|挖掘同類型的SQL，關注次數、耗時和資源消耗可為SQ

12、L模板創建物化視圖和進行內存預估優化通過解析SQL獲取掃描次數TopN的熱表及其分區可作為DataCache緩存和元數據異步加載的白名單HBO優化實踐優化實踐03|基于HBO的本地緩存優化|表元數據緩存表定義、分區信息、文件列表和統計信息等遠端：Hive Metastore 本地：Catalogd-CoordinatorHDFS文件緩存文件句柄、文件塊數據遠端：HDFS NameNode,DataNode 本地：Impalad FileHandle Cache,DataCache存在的問題存在的問題元數據過舊導致查詢錯誤元數據未緩存導致性能變差 Impala DataCache

13、成熟度不夠（3.4版本）：重啟失效，Miss代價大，可觀測性差基于HBO的本地緩存優化|表元數據緩存支持元數據自動同步（invalidate/refresh）過濾無效表、合并同類DDL、暴露同步進度通過SQL注解收集指定查詢涉及的表信息通過動態白名單驅動表元數據異步加載DataCache增強獨立配置Footer Cache CacheMiss異步Fill Cache元數據持久化服務器多節點部署場景優化 backport 4.0新特性（LIRS、Metrics等）通過SQL注解收集指定查詢的熱表/分區通過動態白名單及時更新需要緩存的表/分區在網易云音樂自助取數場景下，使用本地緩存等優

14、化措施后，10秒內查詢占總查詢比例從65%提升到91%，提升超過25%基于HBO的多表物化視圖|預計算是OLAP產品的傳統性能加速手段（MOLAP）BI報表場景：SQL批量下發、對性能要求較高查詢規律性強、重復率高、T+1類型多1.生命周期管理生命周期管理：純自研，以獨立服務形式部署，元數據存mysql 通過數據產出消息、DDL變更日志和文件變更驅動更新2.SQL透明改寫透明改寫：基于Calcite物化視圖實現，輔以二次開發 SQL-calcite AST-rewrite-back to SQL-impala AST 作為jar包集成到coordinator的FE端，攔截SQL請求優化SQ

15、L匹配和改寫效率添加outer join、group by、limit等算子和各種UDF支持基于HBO的多表物化視圖|1.獲取優化對象：通過有數BI的報表歷史查看記錄通過解析有數BI的SQL注解獲取不同粒度：慢圖表、慢報告、慢模型2.創建物化視圖：模型物化視圖：基于查詢所涉及數據分區范圍+涉及字段圖表物化視圖：非分區篩選器或聚合類圖表基于HBO的多表物化視圖|3.命中及效果評估：通過通過coordinator metrics 通過分析通過分析SQL注解注解通過BI統計報表通過有數BI數據醫生-By UnciaDB(rewroteByMaterialization:calcite_y

16、oudata21204_1653641141,checkTime:3 ms,metadataLoadTime:7 ms,rewriteTime:25 ms)基于HBO的多表物化視圖|3.命中及效果評估：通過coordinator metrics 通過分析SQL注解通過通過BI統計報表統計報表通過有數通過有數BI數據醫生數據醫生基于HBO的內存預估優化|提取SQL模板，分析內存預估值和實際值選擇偏差大的模板作為優化規則計算用戶查詢的SQL模板并進行規則匹配統計信息缺失、粒度不夠細、維度不豐富預估過大，導致內存實際利用率低因可用內存不足導致查詢排隊虛擬數倉與資源動態調配|靈活高效的數

17、倉形態靈活高效的數倉形態虛擬數倉位于同一個Impala集群，共用一份元數據形態1：基于zookeeper namespace（主流）形態2：基于session的查詢參數（類似snowflake）混合分組和負載均衡混合分組和負載均衡解決物理資源隔離帶來的資源利用率不高問題混合分組模式：一個executor屬于多個虛擬數倉虛擬數倉多入口：coordinator分時多zookeeper地址基于executor負載的分布式執行計劃未來發展計劃04|未來計劃|已完成自研特性合并添加hive 2.x版本支持推進上線中支持更多SQL語法和算子提高物化視圖創建的自動化程度與有數BI產品進一步融合進一步提升HBO內存估算能力支持更多場景的查詢透明重試支持向量化執行模式支持通過K8S進行Impala集群部署資源動態調度和負載均衡集群健康狀態診斷系統非常感謝您的觀看|

相關圖表

本文主要介紹了網易數帆在Impala集群性能優化方面的實踐和探索。網易數帆通過收集和分析Impala歷史查詢信息，采用基于歷史查詢的優化策略（HBO），顯著提升了高性能數倉的性能。關鍵數據包括：自助取數場景下，本地緩存等優化措施使10秒內查詢占總查詢比例從65%提升到91%。此外，通過多表物化視圖和內存預估優化，進一步提高了查詢性能。未來計劃包括支持更多SQL語法和算子，提高物化視圖創建的自動化程度，以及支持向量化執行模式等。

"Impala集群性能優化實踐" "HBO技術如何提升BI查詢效率" "虛擬數倉與資源動態調配策略"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站