數據集成指的是通過一定的規則,對多種異構的數據源提供統一的表示、存儲和管理,通常通過將數據進行轉換處理,使其標準化來實現異構數據的集成,即將不同的數據模型或不同數據源發送出來的數據轉換成具有相同標準的數據,使其在邏輯上統一,屏蔽多種異構數據源間的差異。以下將主要介紹常見的數據集成技術和數據集成工具。
1 數據集成技術
(1)提取、轉換和加載(ETL):在此過程中,收集、轉換來自各種源系統的數據,并將其加載到目標目的地,如數據倉庫或數據庫。
(2)提取、加載和轉換(ELT):在這個過程中,數據被導入到大數據系統,通常是數據倉庫,然后轉換為特定的分析目的。
(3)更改數據捕獲(CDC):這是一個實時檢測數據庫中數據更改并將其應用于數據倉庫或其他存儲庫的過程。
(4)企業數據復制(EDR):這是一種實時數據整合方法,其中數據集從一個數據庫移動到具有相同模式的另一個數據庫,以維護出于操作和備份目的同步的信息。
(5)企業信息集成(EII):EII是一種技術,它使開發人員和業務用戶能夠將多個數據源視為一個數據庫,并以新的方式呈現傳入的數據。
(6)數據虛擬化:在這個過程中,來自不同系統的數據實際上被合并以提供統一的視圖,而不是將數據放入新的存儲庫。
(6)流式數據集成:它是一種實時數據集成方法,可不斷將各種數據流集成并饋送到分析系統和數據存儲中。

2 數據集成工具
(1)Hevo數據
Hevo是完全管理的無代碼數據管道平臺,能夠以輕松的方式將100多個不同來源的數據實時集成并加載到數據倉庫/數據庫或您選擇的目的地。具有最小學習曲線的Hevo可以在幾分鐘內建立起來,允許用戶加載數據,而不必影響性能。
(2)Matillion
Matillion是一個基于云的ETL平臺,它通過提取、遷移和轉換云中的數據來實現數據旅行。這有助于從數據中提取可操作的見解,并做出更好的決策。
(3)Fivetran
Fivetran提供基于完全管理的ELT體系結構的自動化數據集成。Fivetran的冪等核心體系結構使其能夠適應數據故障和數據重復,同時最大限度地降低計算成本。
以上是關于數據集成工具及技術的相關知識,更多信息請關注三個皮匠報告的行業知識欄目
推薦閱讀:
數據集成是什么意思?方法有哪些?數據集成三種方法介紹
數據庫安全的內容、要求及技術介紹
什么是云數據庫?分類有哪些?主要云數據庫介紹
2020年通過數據集成和人工智能繪制貧困地圖:亞太地區關鍵指標補充 - 亞洲開發銀行(英文版)(45頁).pdf