隨著云計算的快速發展,一種依托云計算而產生的大數據存儲技術逐漸受到互聯網用戶的歡迎。那么,什么是大數據存儲技術?包括哪些?與傳統存儲技術的區別在哪?本文將具體介紹。

1.大數據存儲技術
大數據存儲是指把不同來源、不同格式及不同類型的數據在邏輯上或物理上有機的集中,并納入到數據聚合平臺中,方便數據的輸入和輸出。
大數據存儲技術分為文件系統和數據庫系統兩部分。大數據文件系統解決海量且形態各異的數據存儲問題,分布式系統的容錯問題及大數據中的冗余問題等。目前典型的大數據文件系統有:分布式文件系統GFS(Google
File System)和Ceph、以流數據訪問模式存儲超大文件的HDFS(Hadoop Distributed File
Sys-tem)、基于分布式內存的“低延遲”文件系統Tachyou。
2.大數據存儲技術分類
(1)基礎架構:云存儲、分布式文件存儲等。
(2)數據收集:在大數據的生命周期中,數據采集處于第一個環節。根據MapReduce產生數據的應用系統分類,大數據的采集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。
(3)數據處理:對于采集到的不同的數據集,可能存在不同的結構和模式,如文件、XML
樹、關系表等,表現為數據的異構性。對多個異構的數據集,需要做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換后,生成到一個新的數據集,為后續查詢和分析處理提供統一的數據視圖。
(4)數據存?。捍髷祿拇嫒ゲ捎貌煌募夹g路線,大致可以分為3類。第1類主要面對的是大規模的結構化數據。第2類主要面對的是半結構化和非結構化數據。第3類面對的是結構化和非結構化混合的大數據。
3.大數據存儲技術與傳統數據存儲對比
大數據應用的一個主要特點是實時性或者近實時性。類似的金融類的應用,能為業務員從數量巨大種類繁多的數據里快速挖掘出相關信息,能幫助他們領先于競爭對手做出交易的決定。數據通常以每年增長50%的速度快速激增,尤其是非結構化數據。隨著科技的進步,有越來越多的傳感器采集數據、移動設備、社交多媒體等等,所以數據只可能繼續增長??偠灾?,大數據需要非常高性能、高吞吐率、大容量的基礎設備。
在數據庫系統方面,相對于傳統關系型數據庫技術,大數據的數據庫系統更重視分布式數據存儲的一致性問題。根據一致性要求的強弱不同,分布式數據存儲策略可分為ACID和BASE兩類。ACID是指數據庫事務具有的4個特性:原子性(atomicity)、一致性(consistency)、隔離性(isolation)、持久性(durability),對一致性要求比較強。BASE則指:基本可用(basical-ly
available)、柔性事務/軟狀態(soft-state,允許暫時不同步)和最終一致性(eventual
consistency),對一致性要求較弱。
以上梳理了大數據存儲技術的定義、方法及其與傳統數據存儲技術的區別,希望對你有所幫助,如果你想了解更多相關內容,敬請關注三個皮匠報告的行業知識欄目。
本文由@2200 發布于三個皮匠報告網站,未經授權禁止轉載。
推薦閱讀:
什么叫云存儲?為什么用云存儲?優劣勢分析
什么是數據存儲?如何解決數據存儲問題?
PlantData:大規模知識圖譜數據存儲(109頁).pdf