1 數據集成是什么
數據集成(Data
Intergration),也稱為數據整合,是通過將分布式環境中的異構數據集成起來,為用戶提供統一透明的數據訪問方式。該定義中的集成是指從整體層面上維護數據的一致性,并提高對數據的利用和共享,而透明指的是用戶不需要關心數據的存儲方式以及如何與數據交互。數據集成的目的是對各種分布式異構數據源提供統一的表示和訪問,將各種數據源在物理和邏輯上存在的差異進行屏蔽。
2 數據集成的三種方法
目前數據集成的一般方法可以概括為聯邦式、中間件式、數據倉庫模式等。
(1)聯邦模式
該模式構建的數據集成系統是由自治的多個數據庫系統的協作組成,各個數據源之間提供相互訪問的接口。該架構的集成系統以全局模式整合各異構數據源的數據視圖。全局模式描述異構數據源的數據結構、語義和操作,是虛擬的數據源的數據視圖,能夠讓用戶透明地進行數據訪問。用戶根據全局模式向系統發出訪問請求,系統將這些請求變換為各個異構數據源在自治系統內能夠執行的操作。構建全局模式與異構數據源數據視圖間的映射關系和處理用戶在全局模式查詢請求是該模式需要解決的兩個關鍵問題。

(2)中間件模式
在中間件模式的數據整合系統中,中間件一般位于數據層和應用層的中間,向下可以對不同的數據庫系統進行協調,向上可以向不同的應用提供統一的訪問接口和數據模式,中間件系統主要是為分布式環境中的異構多數據源提供統一的檢索服務,各個數據源仍然具有各自的獨立性。中間件模式的架構通常由中介器和包裝器組合構成。其中,中介器能夠將針對全局模式的查詢進行分解后,生成為針對不同異構數據源的子查詢交由包裝器執行,查詢結束后將所有子查詢的結果匯總后以統一的格式返回給用戶;針對不同數據源的包裝器,可以將不同數據源中的異構數據轉換成整合系統可以處理的統一格式的數據
(3)數據倉庫模式
數據倉庫是面向主題的、集成的、和時間相關的數據集合,數據被歸類為廣義的、功能獨立的、沒有重疊的主題,用于數據分析和決策支持的系統,也是針對企業應用提出一種數據整合方法。該模式采用在單一的數據倉庫中存儲多個異構數據源的副本的方式,定期的由ETL(Extract,Transform,Load)工具從不同數據源中對數據進行抽取、轉換,然后將其裝載到數據倉庫中,在數據倉庫的基礎上構建數據管理系統,處理用戶的數據訪問請求
3 大型集團企業數據集成現狀
目前國內的集團企業紛紛踏上數字化轉型之路,通過搭建大數據平臺等方式進行數據集成,但數據范圍更多聚焦在單國境數據或單一法人內數據。大型集團企業在進行集團數據集成過程中面臨三大挑戰。首先,最大的挑戰來自于各國的數據政策約束,體現在多方關注促使跨境數據管理日益嚴格、多方監管政策限制關鍵業務數掘流動,各國網絡信息安全以及個人隱私保護要求限制跨境數據流動等。其次數據安全保護政策出臺較晚,缺乏指導落地的下位制度,可借鑒的同業經驗少;第三大型集團企業業態復雜,跨境混業的經營模式,加劇了數掘集成的合規難度

以上是關于數據集成的相關知識,更多信息請關注三個皮匠報告的行業知識欄目
來源:IBM:繩趨尺步 蓄數待發:大型集團企業數據集成攻略(2022)(12頁).pdf
推薦閱讀:
什么是數據中臺?有哪些能力?2021數據中臺top50一覽
數據中臺未來發展趨勢,會怎樣發展?十大趨勢一覽
什么是電子數據交換?有什么特點?應用領域介紹
大數據服務產業鏈及其發展趨勢分析