當前位置:首頁 > 報告詳情

2019年ClickHouse在頭條內部技術演進.pdf

上傳人: 云閑 編號:97464 2021-01-01 33頁 1.53MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

ClickHouse是一種由Yandex開發并于2016年開源的分析型數據庫引擎,以其查詢性能優越而著稱,主要特點包括列向存儲、向量執行、本地附加存儲、線性可擴展性和可靠性(通過分區和副本實現)、SQL接口以及快速的Data Skipping和資源垂直整合能力。盡管它在單表分析和colocate join場景中表現出色,但對于分布式join和事務支持較弱。 字節跳動(Bytedance)使用ClickHouse作為其大數據處理的核心技術,支持數千個節點的大型集群,處理的數據總量達到幾十PB,日增數據約100TB,查詢響應時間在毫秒到30秒之間。它服務于產品運營、分析師、開發人員以及廣告類用戶,通過SQL網關和自研BI系統與其他數據倉庫(如HIVE)、Kafka和RDBMS(如MYSQL)集成。 在使用ClickHouse過程中,字節跳動面臨了數據源到ClickHouse服務化的問題,如HDFS數據訪問、數據導入過程中的Failover、數據就緒速度等。為了解決這些問題,他們增加了HDFS數據訪問能力、維護外部事務以保證數據一致性、使用本地表INSERT以及數據構建與查詢分離等策略。 針對動態Schema的需求,ClickHouse通過Map類型提供了解決方案,使得數據特征的鍵值訪問能夠自動改寫,并且無需重構MAP列,簡化了數據構建(ETL)邏輯。 在高可用性方面,字節跳動通過開發HaMergeTree解決了ZooKeeper在大型集群中的性能問題,將ZooKeeper的壓力分散,并確保了數據和服務的高可用性。 此外,字節跳動還針對特定場景優化了內存使用,如通過Step-ed Aggregation減少內存使用,以及使用BloomFilter和BitMap index來優化Array類型的處理。 總體而言,ClickHouse在字節跳動內部被廣泛應用于快速交互式分析,并且針對遇到的挑戰進行了多方面的優化和改進。
"ClickHouse在頭條如何提升性能?" "動態Schema如何簡化數據處理?" "高可用性如何解決ZooKeeper問題?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站