1.分布式存儲是什么意思
分布式存儲指的是通過集群應用、網格技術等功能,來將網絡中大量的、不同類型的存儲設備通過應用軟件系統集合起來協同工作,在網絡上建立一個單一的、層次化的文件系統,對外提供數據存儲和訪問等功能。

2.分布式存儲的關鍵技術
(1)元數據管理
在大數據環境下,元數據的體量也非常大,元數據的存取性能是整個分布式文件系統性能的關鍵。常見的元數據管理可以分為集中式和分布式元數據管理架構。集中式元數據管理架構采用單一的元數據服務器,實現簡單.但是存在單點故障等問題。分布式元數據管理架構則將元數據分散在多個結點上.進而解決了元數據服務器的性能瓶頸等問題.并提高了元數據管理架構的可擴展性,但實現較為復雜,并引入了元數據一致性的問題。另外,還有一種無元數據服務器的分布式架構,通過在線算法組織數據,不需要專用的元數據服務器。但是該架構對數據一致性的保障很困難.實現較為復雜。文件目錄遍歷操作效率低下,并且缺乏文件系統全局監控管理功能。
(2)系統彈性擴展技術
在大數據環境下,數據規模和復雜度的增加往往非常迅速,對系統的擴展性能要求較高。實現存儲系統的高可擴展性首先要解決兩個方面的重要問題,包含元數據的分配和數據的透明遷移。元數據的分配主要通過靜態子樹劃分技術實現,后者則側重數據遷移算法的優化。此外,大數據存儲體系規模龐大.結點失效率高,因此還需要完成一定的自適應管理功能。系統必須能夠根據數據量和計算的工作量估算所需要的結點個數,并動態地將數據在結點間遷移。以實現負載均衡;同時.結點失效時,數據必須可以通過副本等機制進行恢復,不能對上層應用產生影響。
(3)存儲層級內的優化技術
構建存儲系統時.需要基于成本和性能來考慮,因此存儲系統通常采用多層不同性價比的存儲器件組成存儲層次結構。大數據的規模大,因此構建高效合理的存儲層次結構,可以在保證系統性能的前提下,降低系統能耗和構建成本,利用數據訪問局部性原理.可以從兩個方面對存儲層次結構進行優化。從提高性能的角度,可以通過分析應用特征,識別熱點數據并對其進行緩存或預取,通過高效的緩存預取算法和合理的緩存容量配比,以提高訪問性能。從降低成本的角度,采用信息生命周期管理方法,將訪問頻率低的冷數據遷移到低速廉價存儲設備上,可以在小幅犧牲系統整體性能的基礎上,大幅降低系統的構建成本和能耗。
(4)針對應用和負載的存儲優化技術
傳統數據存儲模型需要支持盡可能多的應用,因此需要具備較好的通用性。大數據具有大規模、高動態及快速處理等特性,通用的數據存儲模型通常并不是最能提高應用性能的模型.而大數據存儲系統對上層應用性能的關注遠遠超過對通用性的追求。針對應用和負載來優化存儲,就是將數據存儲與應用耦合。簡化或擴展分布式文件系統的功能,根據特定應用、特定負載、特定的計算模型對文件系統進行定制和深度優化,使應用達到最佳性能。這類優化技術在谷歌、Facebook等互聯網公司的內部存儲系統上,管理超過千萬億字節級別的大數據,能夠達到非常高的性能。
3.分布式存儲的類型
(1)分布式塊存儲:分布式塊存儲是通過分布式塊存儲軟件將通用存儲服務器的本地存儲資源 組織起來,構建全分布式存儲池,支持大規模橫向擴展的存儲產品,為上層應
用和客戶端提供 SCSI、iSCSI 等標準的訪問接口協議,滿足云資源池及數據庫 等場景的存儲需求。
(2)分布式文件存儲:分布式文件存儲采用分布式文件存儲軟件,將通用存儲服務器的本地存儲 資源整合成統一的資源池,對外提供統一命名空間。通過
NFS、CIFS、POSIX 等 標準文件協議接口訪問,具備大規模橫向擴展能力,為用戶提供非結構化數據
共享存儲資源,應用于視頻、音頻、高性能計算、視頻監控等多業務場景。
(3)分布式對象存儲:分布式對象存儲通過分布式對象存儲軟件,組織通用存儲服務器的本地存 儲資源,構建分布式存儲池,為上層應用提供 S3
等標準訪問接口協議。分布式 對象存儲具有高速直接訪問和數據共享等優勢,不但提供了高可靠性、跨平臺
性以及安全數據共享的存儲體系結構,而且適用于存儲海量的、非結構化的、 讀多于寫的數據。
(4)大數據存儲:采用Hadoop HDFS等協議。為Spark, Hive,
Hbase,MapReduce等主要的大數據計算組件提供獨立的存儲服務。大數據存儲與大數據計算組件之前通過標準的HDFS等協議進行數據交互,兩者可以獨立部署與擴展,一套大數據存儲可以同時支撐不同的大數據平臺,不同的大數據計算組件。
以上就是有關于分布式存儲的定義、關鍵技術及類型的全部介紹,如果還想了解更多分布式存儲的相關內容,敬請關注三個皮匠報告網站。
推薦閱讀
什么是虛擬存儲器?有哪些特征?
什么是分布式發電?優勢有哪些?類型介紹
《分布式存儲產業方陣:分布式存儲發展白皮書(2022年)(60頁).pdf》
《中興:分布式精準云白皮書(29頁).pdf》