《網易數帆:網易有數大數據平臺技術白皮書(25頁).pdf》由會員分享,可在線閱讀,更多相關《網易數帆:網易有數大數據平臺技術白皮書(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、 0 網易有數大數據平臺 技術白皮書 作者:網易有數大數據開發及管理團隊 聯系我們:0571-89926329 了解和申請試用 1 目錄 1.有數大數據平臺.2 2.產品核心功能.3 2.1 有數大數據開發套件.4 2.2 調度系統.7 2.3 數據安全.11 2.4 平臺運維與監控.12 2.5 數據可靠性.13 3.基于有數的大數據應用建設方案.14 4.技術規格.17 5.組件版本.20 2 1.網易有數大數據平臺 有數大數據平臺,網易大數據實踐經驗積累,一站式大數據應用開發和數據管理平臺。有數大數據平臺主要分為大數據開發套件和 Hadoop 發行版兩部分。有數大數據總體架構圖 大數據開
2、發套件主要包含數據開發、任務運維、自助分析、數據管理、實時流計算、項目管理等。大數據開發套件將數據開發、數據分析、數據 ETL 等數據科學工作通過工作流的方式有效地串聯起來,提高了數據開發工程師和數據分析工程師的工作效率。Hadoop 發行版涵蓋了網易大數據所有底層平臺組件,包括自研組件、基于開源改造的組件。豐富而全面的組件提供完善的平臺能力,使其能輕易地構建不同領域的解決方案,滿足不同類型的業務需求。敏捷易用 3 基于業務場景設計的用戶操作界面提高了系統的易用性,結束了平臺命令行運維的繁瑣狀態。數據開發工程師和數據分析師通過簡單拖拽和表單填寫即可完成數據科學相關工作。成熟穩定 持續內部需求驅
3、動幫助打磨平臺,網易互聯網各業務驗證。同時,網易杭研院成熟的 QA 體系為有數大數據平臺保駕護航。安全可靠 有數平臺提供多租戶支持,不同租戶之間相互隔離。底層使用 Kerberos 認證,實現了數據的安全性和隔離性。除了認證系統,利用 Ranger 實現了細粒度權限控制,保證了各個租戶只能查看授權訪問的庫、表或字段。此外,平臺提供審計功能,通過對用戶平臺行為的記錄、分析和匯報,用來幫助事后生成合規報告、事故追根溯源,提高平臺安全性。開放靈活 一直秉承開源改造回饋社區的概念,保持開源組件接口一致性;提供開放靈活的Web 接口,用戶可以在此基礎上進行定制化開發。2.產品核心功能 4 2.1 有數大
4、數據開發套件 有數大數據開發套件提供可視化界面,用戶可以進行數據開發、任務運維、自助分析、數據管理、實時流計算、項目管理。大數據開發套件降低了大數據技術門檻,幫助企業快速落地大數據項目。網易有數開發套件 數據開發 數據開發模塊提供數據庫傳輸、SQL、Spark、MapReduce 及 Script、條件控制、嵌套流、數據質量等任務節點的敏捷開發界面,任務開發者通過拖拽創建任務,方便地進行數據集成、數據 ETL、數據質量校驗、數據分析等數據科學工作。以數據庫傳輸為例,用戶只需將“數據庫傳輸”組件拖拽到畫布上并雙擊,通過下拉框選擇和手動輸入填寫表單,快速完成數據傳輸的任務開發。此外,企業還能根據自
5、身業務場景按需進行任務調度管理,用戶可以設置任務的執行順序、優先級以及執行周期。針對任務失敗的情況,設置重試次數、重試間隔及報警規則。最后,任務產生的結果可以對接主流 BI 系統進行數據可視化分析,或者直接回流到線上系統支撐輔助線上業務。5 任務運維 任務運維模塊包含可視化的運維概覽、實例運維、任務管理。運維概覽:通過今日執行概覽,執行趨勢圖,用戶大體了解當天任務運行的情況以及歷史任務運行實例的趨勢,通過耗時排行和延遲排行快速定位可能存在有問題的任務實例。任務管理:用戶可以查看當前產品線任務列表及各個任務的狀態、創建人、修改時間、最近執行時間及調度信息。針對單個任務,用戶可以查看詳情(包括修改
6、歷史、執行歷史及執行計劃)、編輯任務或補數據。補數據可以對任務執行發生在過去一段時間的調度。用戶還可以通過任務血緣來查看線上調度任務之間的依賴關系。實例運維:主要分周期實例(線上調度和重跑生成對應的實例)和補數據實例,用戶可以查看任務實例列表及各個實例的狀態、運行方式、開始時間、結束時間、運行時長、計劃執行時間及提交人信息。此外,用戶可以按照不同的維度(開始時間、關鍵字、運行方式、狀態及提交人)快速定位感興趣的實例。針對單個實例,用戶可以查看詳情、日志或重跑。自助分析 自助分析提供交互式數據分析的 Query 和 Notebook。Query 可便于單個數據查詢操作,Notebook 可切分成
7、不同段落,便于分析師使用多個段落同時進行交互式分析。除了交互式數據分析,用戶可以使用自助分析進行歷史數據查詢和自助取數。同時針對不同場景,提供 Hive、Spark、Impala 三種執行引擎且三引擎共享同一份元數據。數據管理 數據管理模塊包括元數據管理、數倉管理、數據質量、文件管理、數據源管理。在數據管理里企業可以實現數倉分層、分主題對數據資產進行分類管理,并根據主題快速定位感興趣的表。6 元數據管理:用戶可以查看當前項目和項目外的相關表;可以通過表、字段名稱或者描述進行相關搜索定位;可以通過責任人、表類型進行篩選;可以通過創建時間、名稱、分區數進行排序。在具體表詳情里面,用戶還可以查看表的
8、結構、數據預覽、生命周期設置、通過數據血緣了解數據的來龍去脈。數據質量:通過稽核監控滿足用戶事前定義數據的監控規則、在事中無縫對接工作流設計和調度控制 ETL 流程、事后通過稽核概覽進行數據質量問題分析和相關跟蹤。文件管理:快速的進行文件新建、上傳、刪除、下載以及相關文件和目錄的搜索 數據源管理:提供登記關系型數據庫數據源的入口。登記數據源后,數據開發工程師可以將數據源的數據集成到有數平臺,并做進一步的操作如數據 ETL 和數據分析。目前支持的關系型數據庫包括 MySQL、SQL Server、PostgreSQL、DB2 及Oracle。除了數據源登記,項目管理員可以修改、刪除數據源或測試數
9、據源連通性。項目管理 為了滿足現代企業多部門多集群的需求,項目管理提供創建項目、資源管理、成員管理、角色管理、權限管理以及審計項目活動等功能。針對單個項目,項目管理員可以進行集群存儲、隊列及資源管理,也可查看整體資源消耗的趨勢 權限管理:通過個人,角色進行數據、功能、目錄、隊列權限授權,對于數據權限,可以對庫、表和列的不同權限(select、update、create、drop 和 alter 等);對于功能權限可以控制不同角色擁有不同的功能。審計:不僅能對所有在有數平臺上的操作進行審計且能對于 HiveServer 和 Hdfs的操作進行審計,并能根據不同維度進行查詢(如集群、隊列)7 2.
10、2 調度系統 用戶可以通過調度系統靈活方便地配置和調度大數據 ETL 任務。支持 Sqoop、hive、Spark、HadoopMR、Script、Java、數據質量等類型的大數據任務,通過配置任務之間的依賴關系,可以靈活地組織任務流。支持任務流的定期調度、歷史回溯調度、歷史任務重跑等多種調度方式。支持跨任務流的任務依賴和任務的細粒度分配,并且所有服務節點都實現了高可用機制。任務執行 調度系統支持幾乎所有主流的大數據類型任務,對任務的執行進行了嚴格的權限控制和資源隔離,保證用戶任務正常執行。用戶可以靈活便捷地配置任務參數,系統可用性好。任務的執行采用獨立進程執行的方式,任務插件的升級和擴展不會
11、對系統使用有任何影響。任務流執行控制 調度系統除了支持多種形式的調度方式以外,還支持多維度的精細化的調度參數的設置:支持多層級的任務流并發執行,內置多種任務異常處理策略,提供多種任務流執行狀態的通知報警方案。其他 除了支持調度任務的核心功能,調度系統還支持執行 sql 執行結果的預覽和下載、任務執行日志的預覽、保存和下載等提高用戶使用體驗的功能。8 調度系統 9 2.5 交互式分析查詢 Impala 是基于 MPP 架構的新型查詢系統,它提供比現有 SQL-on-Hadoop 引擎具有簡易使用和快速查詢的特點,支持標準的 ANSI SQL 語法;Impala 支持 Hive 元數據查詢存儲在多
12、種存儲系統上的數據。另外 Impala 具有較好的可擴展性,可以很好的與典型 BI 應用系統協同工作,對于即席查詢(Ad-hoc 查詢)需求無疑是首選工具。網易有數團隊對社區版本做了以下改進提升:用戶權限隔離 開源版本的 Impala 只支持 impala 用戶執行所有的數據訪問操作,不同用戶的操作會造成數據權限不一致,無法被其它查詢引擎使用等問題,我們基于開源 Impala版本添加支持用戶權限隔離,實現用戶數據的自治和不同引擎之間的共享?;?Zookeeper 高可用和負載均衡 Impala 典型的高可用方案是基于 HAproxy+Keepalived 實現,但是這種方案擴展性一般并且不能
13、夠和 Hive 兼容,我們由此開發了基于 Zookeeper 的高可用負載均衡方案,以此兼容 Hive 的使用方式。集中式的查詢審計和管理系統 每一個 Impalad 都可以作為 SQL 引擎提供服務,導致每一個節點保存了部分的查詢詳細信息,這樣增加了用戶的使用難度,由此我們開發了集中式的查詢審計和管理系統,支持不同用戶查看不同的 SQL 查詢信息。細粒度的權限控制 開源版本的 Impala 只支持 ALL/INSERT/SELECT 三種權限,無法做到諸如CREATE/UPDATE/DROP 等細粒度的權限,我們對此進行修改以支持細粒度的權限控制,更好的保證了數據安全。10 元數據同步 Im
14、pala 和 Hive 等 SQL 引擎共享元數據存在無法同步 DDL 操作的問題,我們基于現有的 Impala 架構增加了同步 DDL 操作的功能,實現元數據在不同 SQL 引擎之間實時的同步。元數據權限集成 Ranger 社區版本 Impala 權限系統只能與 Apache Sentry 集成,我們針對這個問題實現了與 Apache Ranger 的集成,實現統一的元數據和數據管理。兼容 Apache Hive 的客戶端 Impala 雖然可以直接使用 Hive 的 URL 進行連接,但是仍然存在一些參數有所區別,因此對原有客戶端進行封裝以支持使用與 Hive 完全一致的 URL 訪問 I
15、mpala。11 2.3 數據安全 原生 Hadoop 在數據安全領域的限制較少,非常開放。但在實際業務中,尤其是涉及機密和敏感數據時,僅限授權用戶訪問就至關重要。同時訪問是否合理等信息也需要系統記錄下來,讓管理員可以回溯,進一步保證數據安全。平臺通過認證(Authentication)、授權(Authorization)、審計(Audit)三個方面來保證數據安全。認證 認證是用戶進入系統的第一道屏障。平臺采用了 MIT 開發的 Kerberos 做用戶級別的認證。Kerberos 的設計主要針對 client-server 模型,基于加密方法建立用戶(和系統)識別自己的方法,對個人通信以安全
16、的手段進行身份認證,用戶和服務器都能驗證對方的身份。授權 平臺提供基于角色和個人的訪問控制。對 HDFS、Hive 等實現了統一的,細粒度的數據訪問控制。從數據角度,可以查看當前何種角色/何人有何種權限。從角色/個人角度,可以查看對哪些數據有何種權限。審計 平臺為項目安全提供較直觀的整體評估和事件跟蹤,包括實時監測對系統敏感信息的訪問和操作行為,根據規則設定報警并及時阻斷違規操作,收集并記錄行為,可檢索所有記錄,提供統計信息五個方面。監控處理的信息包括用戶動作,管理員動作兩大類。用戶動作,所有用戶的登錄信息,對數據、對資源、對服務的訪問和操作等;管理員動作,管理員對項目、成員等做出的配置等。1
17、2 2.4 平臺運維與監控 Ambari 是大數據生態組件管理系統,包含了安裝部署、配置管理、監控告警等組件與集群管理功能,并集成了所有網易大數據生態組件,包括自研組件Mammut、Kyuubi、Sloth 等以及社區版本中并未集成的 Impala 等。網易有數團隊對社區安裝部署方式進行改進,提供富安裝包模式,無需外網或者部署 Repo 倉庫即可完成安裝部署,使其更適用于企業環境的安裝部署。豐富監控能力,讓問題更顯而易見。豐富告警能力,不止支持郵件,還支持短信、電話告警。2.5 指標系統和統一查詢服務 指標系統從業務口徑、計算口徑和數據來源三個層面著手,采用統一的管理規范,包含統一入口登記、助
18、力數據規范定義、助力數據模型規范設計等功能,并引入審批機制,最終實現 100%消除指標口徑不一致,指標數量減少 50%,同時理解一個指標的含義時間縮短 80%。統一查詢服務通過數據 API、訪問日志、授權認證、支持多種查詢引擎、支持邏輯模型等加持,一方面協助指標系統實現 100%消除指標口徑不一致,另一方面消除了數據字段變更與應用的強綁定,通過建立數據產品到指標的鏈路追蹤,明確應用到表的訪問鏈路,避免底層表暴露給數據產品,使得數據接入效率提升 10 倍以上。2.6 數據地圖 13 數據地圖用來破解不知道哪些數據可用、不知道到哪里查數據、不知道數據含義的問題,通過數據地圖,企業可告別取數低效的煩
19、惱,快速搜數據、查數據,實現100%自助取數,取數效率提升可達 300%。數據地圖主要可分為兩大功能,一個是數據查詢,一個數倉管理。數據查詢提供離線和實時數據的查詢功能。離線數據可以查詢到有數當前項目組中 hive 表、導入到 hive 表的源頭數據和輸出到指標系統存儲表的查詢及展示。針對 hive 表會展示基礎信息、業務信息、存儲信息等,以及字段信息、分區信息、數據預覽、產出信息、數據血源、DDL 變更、使用記錄、表說明等內容。2.7 數據可靠性 Hadoop 通過數千臺機器組成大規模集群提供大數據能力,當集群規模變大以后,機器的各類型故障將變得頻繁。例如:假設硬盤年故障率 3%,以 100
20、0 臺規模的集群計算,每臺機器 12 塊硬盤,則一年中將會有 360 塊左右的磁盤故障,這對于數據可靠性來說是一個巨大的挑戰。HDFS 通過多方面的技術手段來保證數據可靠性。HDFS 通過把數據多副本保存到多機器來避免磁盤損壞導致數據丟失的風險;并通過自動恢復副本的能力,保證在磁盤損壞后維持集群中數據的副本數。同時 Hadoop 發行版通過 Ambari 進行集群管理,可以從硬件、操作系統、進程狀態到業務層面對每個節點進行監控,及時發現各類異常狀態,并及時產生告警,使得故障檢測時間和修復時間大大縮短,從而保證集群穩定性與數據可靠性。以磁盤故障舉例:1000 個節點,每個節點 12 塊盤,年故障
21、率 3%,HDFS 副本數默認使用 3 個副本;根據網易大數據集群的運維實踐,從磁盤故障、收到告警到完成換盤過程耗時 5 分鐘左右;所以在 5 分鐘之內同時壞掉 3 個磁盤導致 3 個副本全部失效的概率只有:0.000004%,系統的數據可靠性可達 99.99999%(7 個 9)。14 3.基于有數的大數據應用建設方案 數據倉庫建設方案 對于當下日益激勵的市場環境,企業為提升市場競爭力,在生產制造過程,供應鏈、銷售等經營過程收集數據,分析挖掘,用于過程精細化流程控制,大數據分析和挖掘方法為企業完成大數據落地提供了方法支持。企業管理系統如:ERP,CRM,CMS 等,還有日漸完善的物聯網數據,
22、結合現代數據采集和傳輸技術,更容易被采集、傳輸并存儲,結構化,半結構化,甚至視屏、音頻等二進制數據的加工和利用,數據內容的種類更加豐富。傳統的數據計算平臺,無論容量,計算能力都難以跟上數據多樣性和數據體量的增長速度。有數大數據平臺,依托開源社區 Hadoop 更好的適應現代數據應用場景,平臺通過 Sqoop、Flume 等數據傳輸工具,將多樣的數據形式從不同的數據源導入到平臺,通過 Kafka、Sloth 實現實時數據接入,在數據平臺進行統一存儲,清洗,加工,集成,建模,將多種不同來源的數據在平臺上進行關聯與集成,按數據層次組織劃分數據主題,建立維度,度量,指標等,豐富數據寬度,沉淀數據中間層
23、。15 有數平臺能滿足離線,準實時,實時等多種數據應用場景,構建不同時間周期的數據應用,例如:流量日志實時監控,生產設備狀態實時監控預警,風控實時預警等實時應用;又如:用戶畫像,用戶標簽,商品推薦,精準營銷,交叉銷售等離線數據分析和挖掘場景,平臺提供友好的交互界面,降低交互式分析過程的使用門檻,為業務分析團隊數據探索和業務建模過程提供良好的平臺和工具支持。17 4.技術規格 Impala 模糊查詢指標 HBase 性能指標 分類 指示 性能 說明 Impala 模糊查詢 Impala 使用 like 進行指定字符串的模糊匹配查詢性能 記錄格式:匹配字段長度:9 Bytes 測試記錄行數:287
24、99781846 240ms 20 節點集群節點配置:CPU:2*E5-2630 內存:128G 磁盤:12 x 3.6T SATA 分類 指標項 規格 說明 HBase 性能指標 100%寫入:平均每節點寫入記錄數(每條記錄 500 Bytes),響應時間小于 20ms 39000 records/s 8 節點集群節點配置:CPU:2*E5-2440 內存:96G 磁盤:12 x 3.6T SATA 100%隨機讀:平均每節點寫入記錄數(每條記錄 500 Bytes),響應時間小于 20ms 13000 records/s 順序掃描:平均每節點 scan 操作數(每條記錄 500 Bytes
25、),響應時間小于 50ms 7000 ops 讀寫混合(1:1):平均每節點操作記錄數(每條記錄 500 Bytes),響應時間小于 20ms 25000 records/s 18 TPC-DS SQL 兼容度測試 分類 測試 SQL 集 Succeed Failed Impala TPC-DS SQL99 56 43 SparkSQL 95 4 測試類型 Impala 性能(平均)SparkSQL 性能(平均)性能提升倍數 Interactive 16s 79.4s 5.0 Reporting 30.9s 99.5s 3.2 Deep Analytics 60.3s 91.1s 1.5 02
26、0406080100SucceedFailedTPC-DS SQL兼容度測試ImpalaSparkSQL 19 TPC-DS 性能測試 備注:數據集由 TPC-DS 自帶的工具生成,數據集的大小通過參數 scale-factor=10240,數據集大約 10T 020406080100120Deep AnalyticsReportingInteractiveTPC-DS 性能測試SparkSQLImpala 20 5.組件版本 名稱 版本號 修改程度 組件描述 說明 Ambari 2.5.1.0-5.5.0 改造 一款針對大數據平臺的運維管理工具,提供創建、管理、監控、升級等功能 組件使用更通
27、用的包安裝方式(tar.gz 包進行安裝,非 deb/rpm 包),可以直接使用社區包、網易包進行安裝;集成網易自研的組件:Mammut、Sloth;集成更多的社區組件:Impala、Flink、ElasticSearch 等;方便的組件包更新替換,讓組件更方便開發、測試;多服務器組件包負載分流,支持大規模集群安裝部署;通過 LogSearch 實現對整個大數據集群中不同機器和不同服務組件的日志分析和統計 Yarn 隊列配置與 HadoopMeta 聯動。包安裝可根據服務器操作系統版本自動選擇相應安裝包。統一本地數據目錄和本地日志目錄,統一日志輸出格式。JDK 版本升級到 1.8.0_152,
28、不再支持 JDK1.7 Kerberos 1.10.1-對個人通信以安全的手段進行身份認證的一種計算機網絡授權協議 LDAP 2.4.40-輕量目錄訪問協議,用來發布目錄信息到許多不同資源的協議 MySQL 5.7.20-關系型數據庫管理系統 Zookeeper 3.4.6-為分布式應用提供一致性服務的高可 21 靠的分布式協同服務,包括配置維護、域名服務、分布式同步等 Hadoop 2.9.2-1.0.2 改造 包含HDFS/MapReduce/Yarn 的高可靠、可擴展的分布式存儲和計算框架 Hadoop 合入 HADOOP-561/HADOOP-685/YARN-3415/YARN-55
29、54 Hadoop 優化 HDFS AuditLog 打印導致的Log4j 鎖競爭問題 支持 Yarn 的彈性隊列和批流一體混合負載 支持 hdfs 回收站功能 JobHistory 日志條數調整 5W 條 Hive 2.1.1-0.1.14 改造 基于 hadoop 的具備類 SQL 接口和ODBC/JDBC 驅動的數據倉庫工具,適合對數據倉庫進行統計分析工作 元數據服務高可用;HiveServer 過載保護;元數據統一:SPARK、IMPALA 統一使用HIVE 的元數據,一處建表多處使用;后期實現批流一體化平臺的元數據基礎;元數據變化:偵測元數據變化,使得 IMPALA可以實現局部元數據
30、刷新,避免了元數據全量刷新帶來的性能損耗;支持創建帶有生命周期的 table,partition set location 命令添加 hdfs 權限驗證 修復 Lzo 格式 table 查詢死鎖問題 解決 hiveserver2 由 add jar 命令引起的句柄清理異常 解決 Metastore token 過期異常 修復了 Hive On Spark,HiveServer2 權限代理問題 修復了 operation log file descriptor 泄露導致的 HiveServer2 服務異常 修復 Hive 多線程拷貝文件,設置 acl 權限時的并發異常 解決了 Hive load
31、 data 任務失敗,但數據已被移入異常 添加 metastore idle connection 清理功能 解決 Hiveserver2 并發任務執行,異常退出問題 支持 lzo 數據可分片 22 column pruner 錯誤,導致查詢結果錯亂 內置 json udf 導致 hiveserver 內存泄露問題 修復 hiveserver2 日志清理異常且刷新緩慢問題 修復 insert overwrite 等語句臨時數據文件權限問題 修復 hiveserver2 至 metastore 的連接泄露 解決 hive on spark 代理用戶問題 hiveserver2 支持 mr 和 e
32、xec 相關參數運行時設置 修改 view 空指針異常 修復 metastore 過期 token 無法清理問題 支持 HiveServer2 服務平滑下線 支持 Hive2.1 并發編譯 支持 hive 回收站功能 Spark 2.3.2-0.2.0 改造 支持遵循數據流和內存計算的專為大規模數據處理而設計的高速通用數據處理引擎 集成 Apache Ranger,支持 Hive 表字段、列級別的細粒度權限控制 多租戶支持,隔離數據和計算資源 Spark Thrift Server 服務高可用 Spark 支持個人級別 Keytab 支持 SparkContext 動態實例化及回收機制支持 S
33、park JDBC、Beeline 客戶端 Operation 級別的日志支持 修復 SparkSql 訪問有權限的表,報沒有 db權限的問題 Hbase 1.2.6 改造 高可靠性、高性能、面向列、可伸縮的分布式數據庫 支持表級別的統計信息 支持業務隊列劃分 支持業務隔離 Phoenix 4.11.0-HBase-1.2-一個構建在 HBase之上的關系型數據庫層,作為 HBase內嵌的 JDBC 驅動 23 Sqoop 1.4.6-0.1.11.1 改造 用于 hadoop 和關系型數據庫之間數據導入導出的工具 Parquet 和 JSON 格式支持;DB2、SQL Server 支持;支
34、持 Kafka 數據導入 HDFS、HIVE,能夠做到數據的不丟不重;sqoop 對 Hive2.1.1 的集成 Mysql 數據多次導入的 Hive(Parquet)表時,任務異常 支持 mysql 數據直接導入 hive json table codegen 文件,導致 parquet hive table 導出錯誤 hive import 任務添加默認 tmp 路徑 支持 mysql 字段描述信息到 hive 字段中 支持 hbase1.2.6 Ranger 0.5.4-1.0.5 改造 提供一個集中式的操作、監控、管理復雜的數據權限的hadoop 集群安全管理框架,提供授權和審計等處理
35、能力 權限校驗優化:支持上萬條權限規則的權限毫秒級校驗;(社區版本需要 23 秒的時間)權限自動同步:支持數據庫元數據權限和HDFS 文件的權限自動同步,保證了數據安全;(社區版本不支持;Cloudera 只能支持 HIVE 的 DB 目錄下的元數據和文件權限同步)虛擬分組管理:支持以業務分組為單位的權限設置;多組件支持:支持 HIVE(hiveCli、hiveserver2 和 beeline 三個入口)、IMPALA、SPARK 的權限校驗,一處設置權限,多個組件同步生效 新增支持對庫級別的授權;修復了 ranger hive plugin 在 spark client 模式下任務無法結束
36、的問題 支持集群級別配置 hive 于 impala 元數據同步 插件關閉自動重排序功能 Azkaban 5.4.6.1 改造 用來在一個工作流內以特定的順序運 webserver 高可用 作業流失敗重試 執行節點重啟續作 24 行任務的批量工作流任務調度引擎 跨流依賴 補數據調度、任務重跑 Hive JDBC 任務 重構了計劃實例生成邏輯,增加調度可靠性 增加了計劃執行時間自定義格式化方案 支持任務報警,報警組報警 項目作業與資源分離 支持 HQL 注釋 補數據支持補下游依賴 支持多版本 Hive keyab、hive-site.xml 運行時下載 支持數據質量節點、條件節點、嵌套流 Mam
37、mut 5.5 自研 一站式大數據應用開發和數據管理平臺 大數據開發計算平臺 Account 5.5 自研 平臺的賬號管理系統 獨立賬號系統 Hadoop-Meta 0.2.11 自研 負責對用戶資源進行管理和查看的功能組件 代理創建 Kerberos、LDAP 用戶,設置 Yarn隊列配置等 Redis 2.8.22-一個遠程內存非關系型數據庫 Impala 2.12.0-1.0.6.4 改造 基于 HDFS 和 Hive的用來進行大數據實時交互分析的查詢引擎 用戶權限隔離;集中式的查詢審計和管理系統;元數據同步;元數據權限集成 Ranger;細粒度的權限控制;基于 Zookeeper 高可
38、用和負載均衡;支持 Hive 表對應 Hdfs 文件是 JSON 的查詢 Impala 支持個人級別 keytab Impala 支持 Hive MetaStore 模式連接,與Hive 配合支持元數據自動同步 支持元數據過濾、表級別過濾功能 Kafka 2.11-0.10.2.1-基于分布式的高吞吐量的消息發布-訂閱的流處理系統 25 ElasticSearch 5.6.9-準實時的快速存儲、搜索、分析海量數據的高擴展的全文檢索和分析引擎 Atlas 2.0 改造 一個可擴展的核心基礎治理服務集,包括數據分類、數據血緣追蹤等服務 增加了對調度任務的血緣追蹤 Ambari Infra(Solr)0.1.1.1-用于實現權限審計功能的組件 Ambari Metrics 2.5.1.0-負責監控集群狀態的功能組件 LogSearch 0.5.1.1-用于日志監控、收集、分析,并為收集的日志建立索引而進行故障排查的功能組件 Flume 1.8.0-收集和聚合日志和事件數據,實時流寫入 HDFS 或HBase 的分布式框架 提供 Flume agent 的監控和部署管理 Sloth sloth-0.9.7 自研 Kyuubi 0.7.0 自研 替代SparkThriftServer Smilodon 1.0.1 自研 統一報警服務 MyHAS 1.0.3 自研 Mysql 高可用