ESENSOFT:2018元數據管理平臺技術白皮書(23頁).pdf

編號:64629 PDF  DOCX 23頁 1.24MB 下載積分:VIP專享
下載報告請您先登錄!

ESENSOFT:2018元數據管理平臺技術白皮書(23頁).pdf

1、 北京億信華辰軟件責任有限公司北京億信華辰軟件責任有限公司 2012018 8 年年 4 4 月月 元數據管理平臺 技術白皮書 技術白皮書 1 目目 錄錄 1. 前言前言 . 1 1.1. 關于本白皮書 . 1 1.2. 背景介紹 . 1 1.3. 產品定位 . 1 2. 產品架構產品架構 . 2 2.1. 概述 . 2 2.2. 數據源層 . 2 2.3. 采集層 . 2 2.4. 數據層 . 3 2.5. 功能層 . 3 2.6. 訪問層 . 3 3. 產品功能特色產品功能特色 . 4 3.1. 規范的元模型管理 . 4 3.2. 端到端的自動化采集 . 5 3.3. 全面的采集適配器 .

2、 5 3.4. 可靈活定制的采集模板 . 6 3.5. 便捷的元數據檢索 . 7 3.6. 完善的元數據管理 . 7 3.7. 強大的元數據版本管理 . 8 3.8. 實時的元數據變更監控 . 8 3.9. 數據地圖鳥瞰全局 . 9 3.10. 豐富的元數據分析應用 . 9 3.10.1. 血緣分析 . 9 3.10.2. 影響分析 . 10 3.10.3. 全鏈分析 . 10 3.10.4. 關聯度分析 . 11 3.10.5. 屬性差異分析 . 11 3.11. 出色的元數據檢核機制 . 12 3.11.1. 一致性檢核 . 12 3.11.2. 屬性填充率檢核 . 12 3.11.3.

3、組合關系檢核 . 12 3.12. 自助式門戶 . 13 3.13. 豐富的服務接口 . 13 4. 產品技術優勢產品技術優勢 . 13 技術白皮書 2 4.1. 系統設計原則 . 13 4.1.1. 先進性 . 14 4.1.2. 可維護性 . 14 4.1.3. 可靠性 . 14 4.1.4. 易用性 . 15 4.1.5. 安全性 . 15 4.1.6. 擴展性 . 15 4.2. 可擴展采集適配器設計 . 16 4.3. 采用 MOF 規范 . 16 4.4. 支持基于 XMI 的數據交換 . 17 4.5. 運用 RESTFUL架構 . 18 5. 軟硬軟件環境軟硬軟件環境 . 19

4、 5.1. 服務器配置推薦 . 19 5.2. 客戶端配置 . 20 5.2.1. 客戶端(建議配置) . 20 5.2.2. 客戶端瀏覽器 . 20 技術白皮書 1 1. 前言前言 1.1. 關于本白皮書關于本白皮書 本白皮書對應產品版本為:元數據管理技術白皮書元數據管理技術白皮書 V2.1 。 最后修訂日期:2018 年 05 月。 本白皮書將在闡述元數據產品的背景介紹之后,詳細介紹元數據管理平臺在技術和功能上的特點。 1.2. 背景介紹背景介紹 隨著數字化加速,數據量成指數增長,大數據相關技術的出現,讓大家看到了新機遇的同時,大家對數據治理的需求也在增加。 尤其是大型企業業務數據、政府政

5、務數據、行業標準數據,往往由于數據分散、質量參差不齊、數據存儲結構差異大,雖然數據中蘊含大量有價值信息,但想要挖掘出來,往往需要做大量的數據治理工作,成本十分高昂。Gartner 分析師在 2017 年預測,到 2020 年,50的信息治理舉措將通過基于元數據的政策制定。就國內而言,目前完備成熟的元數據產品較少,市場正處于上升期,是搶占市場份額的好時機。 1.3. 產品定位產品定位 億信元數據管理平臺致力于處理技術元數據、業務元數據、管理元數據,幫助各行各業用戶獲得更多的數據洞察力,進而挖掘出隱藏在資源中的價值。 對技術人員而言,元數據管理平臺通過對將分散、存儲結構差異大的資源信息進行描述、定

6、位、檢索、評估、分析,實現了信息的描述和分類的結構化,從而為機器處理創造了可能,大大降低數據治理人工成本。正因如此,元數據已經成為了很多大型數據治理項目的核心。 對業務人員而言,元數據管理平臺通過對業務指標、業務術語、業務規則、業務含義等業務信息進行描述、定位、檢索、評估、分析,協助業務人員了解業務含義、技術白皮書 2 行業術語和規則、業務指標取數據口徑和影響范圍等。 2. 產品架構產品架構 2.1. 概述概述 元數據管理平臺架構分為 5 層,數據源層、采集層、數據層、功能層和訪問層,下圖為元數據管理產品的整體架構圖。 圖1 產品架構圖 2.2. 數據源層數據源層 數據源層是指元數據管理平臺所

7、支持的元數據來源的方式。提供直連多種不同類型的數據源,包括:數據庫類型、ETL 類型、文件類型、業務系統類型等。 2.3. 采集層采集層 采集層針對不同數據源提供豐富的適配器, 實現端到端的自動化采集。 具體包括:sqlserver、oracle、mysql、postgresql、petabase、ODI、Excel、億信 BI 等。 同時支持適配器擴展,實現最大限度的自動化采集。 技術白皮書 3 2.4. 數據層數據層 元數據數據層是基于關系數據庫的元數據存儲,用于實現元數據和元模型的數據的物理存儲。元模型存儲了元數據的屬性要求和存儲格式要求。元數據存儲了從各個系統中采集而來的元數據信息。

8、2.5. 功能層功能層 元數據功能層提供了元數據管理產品的基本功能,包括元模型增刪改查及版本發布功能、元數據增刪改查及版本管理、元數據變更管理、元數據分析應用、元數據檢核以及產品的系統管理功能。 其中元模型管理模塊用于操作元模型,元模型是對各個種類元數據以及元數據之間關系的定義, 元模型包括兩部分: 一部分由元數據管理平臺產品內置的標準元模型,另一部分是用戶根據管理需求自定義的元模型。元模型管理還設計了發布功能,只有在發布之后才會生效,使用戶在設計元模型時,不會影響到元數據的使用。 元數據管理主要包括了元數據增刪改查日常維護,版本管理,元數據全文檢索。 元數據分析應用主要包括了血緣分析、影響分

9、析、關聯度分析、數據地圖等多種圖形化分析應用,并提供導出和收藏功能,將分享結果進行留檔。 元數據檢核包括一致性檢核、屬性填充率檢核和組合關系檢核,是保障元數據質量的重要手段之一 系統管理功能包括了機構用戶角色的權限管理、系統備份恢復、門戶應用、日志管理、系統監控等系統運維相關的功能。 2.6. 訪問層訪問層 元數據訪問層用于給用戶提供訪問控制服務。元數據產品面向的主要用戶群有三類: 技術設計人員、 業務分析人員、 以及系統的運維人員。 通過門戶訪問和后臺訪問,可以實現多種角色的訪問控制。同時訪問層還提供了多種形式的接口服務,可以很方便的與其它 IT 系統進行集成。 技術白皮書 4 3. 產品功

10、能特色產品功能特色 3.1. 規范的元模型管理規范的元模型管理 億信元數據管理平臺元模型以 Meta Object Facility(MOF)規范為基礎,支持 XMI格式的元模型導入和導出,同時內置大量技術元數據、業務元數據的元模型,用戶可直接使用。元模型管理對元模型的基本信息、屬性、父子關系、依賴關系、組合關系的增刪改查操作,內置元模型的內置信息不允許修改或者刪除,但可進行新增操作。具體功能界面如下: 圖2 元模型查看界面 元模型支持發布功能,只有發布后的元模型才可被元數據使用,同時支持查看所有發布版本。 圖3 元模型版本查看界面 通過發布過程, 將元模型的設計和運用隔離開, 元模型只有在發

11、布之后才會生效,技術白皮書 5 使用戶在設計完成發布之前,不會影響到元數據的使用。 3.2. 端到端的自動化采集端到端的自動化采集 對元數據信息的維護除界面手動操作方式外,億信元數據管理平臺利用內置采集適配器,讓用戶通過配置數據源參數及定時采集任務,進行自動化采集。實現直連數據源的端到端元數據采集。 圖4 采集任務配置界面 3.3. 全面的采集適配器全面的采集適配器 元數據管理系統提供了豐富的內置適配器,來保證自動化采集的同時,還支持對適配器進行擴展。 本版本內置適配器: 億信 BI 采集適配器 iReport 采集適配器 JDBC 驅動采集驅動適配器 Greenplum 采集適配器 MySO

12、L 采集適配器 Oracle 采集適配器 技術白皮書 6 PetaBase 采集適配器 PostgreSQL 采集適配器 SQL Server 采集適配器 Elasticsearch 采集適配器 HBase 采集適配器 ODI 采集適配器 Solution 采集適配器 Excel 文件采集適配器 Excel 補錄采集適配器 3.4. 可可靈活定制靈活定制的采集模板的采集模板 采集模板定制允許用戶根據自己的采集需求,靈活選擇需要采集的元數據及其屬性,并自動生成 EXCEL 采集適配器可識別的 EXCEL 模板文件。用戶可使用模板文件將數據批量錄入。 圖5 采集模板配置界面 技術白皮書 7 3.5

13、. 便捷的元數據檢索便捷的元數據檢索 提供對元數據的全文檢索功能。檢索支持對檢索范圍、檢索類型、修改時間進行過濾,過濾條件支持保存,讓用戶可以將常用的過濾條件保存使用,以便能夠更加快速瀏覽所需元數據。 圖6 元數據檢索界面 3.6. 完善的元數據管理完善的元數據管理 元數據管理功能提供各類元數據管理,包括:業務元數據、技術元數據和管理元數據,支持元數據的基本信息、屬性、依賴關系、組合關系的增刪改查操作。 圖7 元數據管理界面 技術白皮書 8 3.7. 強大強大的元數據版本管理的元數據版本管理 元數據管理平臺提供元數據版本管理功能,可以對元數據進行發布、查看歷史版本、導出歷史版本、版本對比操作。

14、 圖8 版本發布界面 在元數據沒有發布時,僅有使用權限的用戶不會獲得未定版信息,保證了用戶使用元數據系統的權威性和可靠性。 3.8. 實時的元數據變更實時的元數據變更監控監控 元數據管理平臺可實時對元數據變更進行監控,并提供變更訂閱功能,將用戶關心的元數據的變更情況定期發送到用戶郵箱。 圖9 變更查詢界面 技術白皮書 9 3.9. 數據地圖數據地圖鳥瞰全局鳥瞰全局 一般情況下,元數據管理的業務繁多、形式各異,在集中管理后,如何提供便捷的使用方式,是發揮信息資產價值的關鍵。數據地圖從宏觀層面組織信息,力求以用戶視角對信息資產進行歸并、整理,全局展現資產的宏觀信息,有效挖掘信息的潛在價值。 圖10

15、 數據地圖 3.10. 豐富的元數據分析應用豐富的元數據分析應用 元數據管理平臺提供了豐富的分析應用, 包括: 血緣分析、 影響分析、 全鏈分析、關聯度分析、屬性差異分析,同時支持將分析結果進行導出和收藏。 3.10.1. 血緣分析血緣分析 血緣分析是對指定元數據的起源及其推移位置的分析。它反應數據的來源與加工過程,還描述了數據在不同過程中發生的情況。它可以幫助分析信息的使用方式并追蹤用于特定用途的關鍵信息位。 技術白皮書 10 圖11 血緣分析 3.10.2. 影響分析影響分析 影響分析幫助用戶迅速了解分析對象的下游數據信息,快速掌握元數據變更可能造成的影響,以便更有效的評估變化該元數據帶來

16、的風險,從而幫助用戶高效準確的對數據資產進行清理、維護與使用。 圖12 影響分析 3.10.3. 全鏈分析全鏈分析 全鏈分析是用來分析指定元數據前后與其有關系的所有元數據,不僅反應了元數據的來源與加工過程,也反應了元數據的使用情況,使用全鏈分析可清晰的了解該元技術白皮書 11 數據的來龍去脈。 圖13 全鏈分析 3.10.4. 關聯度分析關聯度分析 關聯度分析是從關系數量的角度對指定元數據進行分析,來體現該元數據在系統中依賴程度的高低,從一定的角度可以反映出該元數據的重要程度。 圖14 關聯度分析 3.10.5. 屬性差異分析屬性差異分析 屬性差異分析是用來比較同類型元數據之間屬性值的差異,方

17、便用戶識別相似元技術白皮書 12 數據之間的存在的微小差距。 圖15 屬性差異分析 3.11. 出色的元數據檢核出色的元數據檢核機制機制 由于元數據是很多數據管理活動的基本,所以所有類型的數據中,元數據的質量是最為重要的。億信元數據管理平臺提供元數據質量檢核功能,包括一致性檢核、屬性填充率檢核和組合關系檢核,是保障元數據質量的重要手段之一。 3.11.1.3.11.1. 一致性檢核一致性檢核 一致性檢核用來檢驗來源系統元數據以及元數據之間信息是否一致的功能,幫助管理人員分析出元數據管理平臺與來源系統之間的差異,輔助管理人員更好的維護元數據管理平臺。 3.11.2. 屬性填充率檢核屬性填充率檢核

18、 屬性填充率檢核是用來檢驗選定范圍內元數據屬性的填充情況,方便用戶了解某些重要元數據的屬性的填充情況。 3.11.3. 組合關系檢核組合關系檢核 組合關系檢核用根據元模型中設置的組合和被組合關系對元數據進行檢查,查找出不符合元模型定義的組合關系的元數據,例如找出沒有與任何數據庫表建立組合關系的字段。 技術白皮書 13 3.12. 自助式門戶自助式門戶 元數據管理系統帶有門戶工具是元數據,是實現個性化、分業務群的元數據及相關應用展現的重要手段,為用戶關心的內容提供快速訪問的通道,節省時間和提供新知識。 用戶只需通過簡單的拖拉控件到定義門戶區域,就能自己定義個性化的門戶,能夠簡單實現各種復雜的自定

19、義用戶視圖,無需開發人員以及美工介入。 圖16 門戶展現 3.13. 豐富的服務接口豐富的服務接口 元數據管理平臺,提供豐富的接口以支持與外部系統進行交互。 支持嵌入其它平臺支持通過接口進行元數據信息查詢支持通過接口獲取元數據變更信息提供接口支持對適配器進行擴展4. 產品技術優勢產品技術優勢4.1. 系統設計原則系統設計原則 元數據管理平臺是基于 B/S 架構的軟件平臺,研發過程中遵循軟件工程迭代開發技術白皮書 14 和面向對象設計思想。運用了先進的軟件開發技術,元數據管理平臺的設計遵循下列原則: 4.1.1. 先進性先進性 SQL 解析技術 全文檢索技術 采用 Meta Object Fac

20、ility(MOF)規范 支持 XMI 數據交換標準 采用 RESTful 架構 支持標準的 OLAP 分析 遵循事實結構的星型數據倉庫模型 用戶 WEB 界面采用 AJAX 技術 使用國際化編碼 UTF8 4.1.2. 可維護性可維護性 提供集成化的系統管理模塊,通過圖形化界面管理、配置所有系統對象 元模型可方便的進行備份和恢復 支持自定義元模型 純 web 化,無需任何插件,客戶端零安裝,大大方便系統升級維護 所有系統元數據全部持久保存在數據庫中,服務器遷移十分方便 4.1.3. 可靠性可靠性 合理的 JAVA 內存回收機制 有完善的錯誤診斷和恢復機制,不會出現因用戶誤操作而導致系統崩潰

21、所有系統元數據全部持久保存在數據庫中,不會因應用服務器崩潰或病毒入侵等損壞系統 技術白皮書 15 4.1.4. 易用性易用性 系統安裝配置簡單,基于 B/S 結構,客戶端零安裝 界面操作簡單,流程清晰 面向業務人員提供零編程、交互式元模型設計功能 廣泛采用 AJAX 技術,為用戶提供了十分友好的交互式 WEB 操作界面 4.1.5. 安全性安全性 通過元模型的版本管理,保障元數據在使用時的穩定性 管理員可詳細配置每個用戶的操作權限和可訪問對象 采用嚴格的技術手段,杜絕非法用戶繞過安全認證直接獲取元數據信息 記錄詳細的操作和采集日志以備審查 所有密碼均使用安全的加密算法加密保存 防暴力攻擊 防

22、SQL 注入攻擊,跨站腳本攻擊等 支持 SSL 通信協議 4.1.6. 擴展性擴展性 采集適配器采用可擴展設計,用戶可自行上傳針對自己某個業務系統的適配器 所有功能都是根據可擴展可通用的原則來設計的,可以適應未來未知的需求變化 系統的模塊化設計,一個模塊發生變化不會影響整個系統 提供各種定制接口和調用接口 Web Services 服務,滿足第三方服務需要 提供二次開發平臺設計,滿足未來各種未知需求 技術白皮書 16 4.2. 可擴展可擴展采集采集適配器設計適配器設計 元數據管理平臺提供完備的采集適配器設計接口,并采用 Java 動態加載技術,實現 jar 包的動態加載,使用戶在無需重啟服務器

23、的情況下,動態將自己設計的適配器加載到元數據管理平臺中,以實現個性化數據的自動化采集,達到最大限度的自動化采集。 4.3. 采用采用 MOF 規范規范 元數據管理平臺采用 Meta Object Facility(MOF)規范作為元數據管理的基礎。 MOF 稱為元對象設施或者元對象機制,是 OMG ( Object Management Group, 對象管理組織)為了幫助銷售商、開發者和用戶更好的使用元模型和元數據技術而制定的。MOF 最初是 OMG 在 1996 年一個征求建議書(RFP, Request For Proposal)中提出的。2002 年 MOF 成為 OMG 建模系列規范

24、中的一員, 2005 年 MOF 規范成為 ISO(ISO/IEC 19502)的標準。因此,MOF 也可以稱為 MOF 規范或者 MOF 標準。符合 MOF 規范的元模型具有開放性、擴展性和互操作性。 MOF 規范對應著一個 MOF model, 它實際上也是一個元元模型 (meta meta-model) ,它定義了描述元模型的語言并用這個語言描述了自身。雖然 MOFmodel 是一個強大的描述大量的信息模型的建模語言,但是它不是最終的建模語言,更多的使用 MOF 是把它作為一個規范和工具,去設計和實現更優秀的元模型建模系統。 MOF規范位于模型體系最底層, 所有模型體系規范的基礎都是MO

25、F規范, 包括UML,CWM 都是由 MOF 擴展而來。 圖17 模型體系 基于 MOF 的還有模型交換的規范 XMI, 為不同元數據交換提供了很好的模型基礎。技術白皮書 17 若整個元數據圍繞 MOF 設計和擴展,不用修改元數據管理核心部分,就可以適應元數據種類的不斷擴展。 一般將元數據有關的體系分三層,M0(數據) 、M1(元數據)、M2(元模型)、M3(元元模型),其中 MOF 元元模型中描述了包、元素、屬性、命名空間和約束等對象及其關系,位于層次結構的最上層,也是最抽象的一層。 圖18 元數據體系 以 MOF 作為底層元元模型來支持元數據管理, 在 M2 層中就可以對元模型進行定義和擴

26、展(例如 CWM 模型),將來還可以擴展到微服務模型、業務模型等。 4.4. 支持基于支持基于 XMI 的數據交換的數據交換 XMI(XML-based Metadata Interchange)是基于 XML 的元數據交換。它通過標準化的 XML 文檔格式和 DTDs(Document Type Definitions)為 UML 元模型(元模型是一類特殊的模型)和其他模型定義了一種基于 XML 的數據交換格式。它同時也定義了一個從 UML 到 XML 的映射。 XMI 的主要目的就是讓各種分布式的異構環境中的建模工具和元數據存儲(metadata repositorie)倉庫之間能方便地進

27、行數據交換。 XMI 規范中包括了兩個主要的部分: 技術白皮書 18 XML DTD 的產生規則:用于為使用 XMI 進行編碼的元數據文件產生相應的 XML DTD 文件。XMI DTDs 作為 XMI 文檔的語法描述文件,可以方便地使用通用的 XML 工具對 XMI 文檔進行有效性校驗。 XML 文檔的產生規則: 它為元數據到純 XML 文檔提供了編碼規則。 同樣它還應用于把 XMI 文檔反編碼,重新構造生成元數據。 XMI 規范支持任何可以用 MOF 表示的元數據(包括模型和元模型)的數據轉換。規范同時支持完整的模型或是一個模型的片斷到 XML 的轉換。 元數據管理平臺支持 XMI 格式的

28、元模型導入和導出。 4.5. 運用運用 RESTful 架構架構 RESTful(Representational State Transfer,表現層狀態轉化)是 Roy Thomas Fielding 在 2000 年他的博士論文Architectural Styles and the Design of Network-based Software Architectures中提出的一個描述互聯系統架構風格的名詞。讓我們先去理解 Representational State Transfer 這個詞組到底是什么意思?Web 本質上由各種各樣的資源組成,資源由 URI 唯一標識。瀏覽器將展

29、示出該資源的一種表現方式,或者一種表現狀態。如果用戶在該頁面中定向到指向其它資源的鏈接,則將訪問該資源,并表現出它的狀態。表現層其實指的是資源的表現層,這意味著客戶端應用程序隨著每個資源表現狀態的不同而發生狀態轉移,也即所謂 RESTful。 RESTful 架構用基于標準的 HTTP(s)協議實現資源的增/刪/改/查(CRUD)操作: GET:類似 SQL 的 SELECT 語句,從服務器取出資源(一項或多項)。 POST:類似 SQL 的 INSERT 語句,在服務器新建一個資源。 PUT:類似 SQL 的 UPDATE 語句,在服務器更新資源(客戶端提供改變后的完整資源)。 PATCH:

30、類似 SQL 的 UPDATE 語句,在服務器更新資源(客戶端提供要改變的屬性)。 DELETE:類似 SQL 的 DELETE 語句,從服務器刪除資源。 技術白皮書 19 圖19 RESTful 流程圖 元數據管理平臺遵循 RESTful 規范,提供 RESTful API 接口為第三方應用提供服務。 5. 軟軟硬軟件環境硬軟件環境 5.1. 服務器配置推薦服務器配置推薦 配置項目配置項目 說明說明 中間件中間件 IBM X3650 或 HP PowerEdge R910 CPU:Xeon E7-4820 內存:32G 硬盤:RAID1 1T 網絡:1000M 數據庫配置數據庫配置 IBM

31、X3850 或 HP PowerEdge R720 CPU:Xeon E7-4820*2 內存:128G 硬盤:按需 網絡:1000M 操作系統及軟件操作系統及軟件 操作系統:Windows、linux 中間件:tomcat-7.0.70 數據庫:Oracle11g、Oracle12c 說明: 若采集數據大于 20W 條,建議數據庫內存 68G,redo log 分 3 組,每組 10G,undo 回滾空間至少分配 30G,用戶表空間建議初始化為 30G。 技術白皮書 20 5.2. 客戶端配置客戶端配置 5.2.1. 客戶端客戶端(建議配置建議配置) 所屬項所屬項 說明說明 CPU 不低于酷睿 i3 2350M 內存內存 不小于 4G 網絡網絡 不低于 100KB/s 傳輸速度 5.2.2. 客戶端瀏覽器客戶端瀏覽器 操作系統操作系統 瀏覽器瀏覽器 Windows IE11,IE10,IE9,Chrome 瀏覽器

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(ESENSOFT:2018元數據管理平臺技術白皮書(23頁).pdf)為本站 (奶茶不加糖) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站