1.結構化數據
結構化數據(Structure
Data)就是行數據,也就是可以通過傳統的關系型數據庫(RDBMS)進行存儲以及管理,可以使用二維表格的方式對數據的結構和數據本身進行形式化的定義和使用,也就是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式和長度規范,結構化查詢語言(SQL)允許在關系數據庫(RDBMS)中查詢該類型的結構化數據。

結構化數據的特點:
(1)數據結構相對固定,結構定義不易改變,數據長度有限制,但是能夠很容易通過二維表結構實現數據的邏輯化表達。
(2)數據類型相對簡單,能夠支持大部分的傳統行業應用,但是隨著大數據的崛起,越來越多的數據呈現非結構化,因此,非結構化數據的存儲和分析變得越來越重要。
2.非結構化數據
非結構化數據(Unstructured
Data)就是數據結構不規則或不完整、沒有預定義的數據模型、不方便用數據庫二維邏輯表來表現的數據。簡單意義上來說,無法或者不方便使用二維的數據邏輯思維存儲和表達的數據都可以定義為非結構化數據,因此非結構化數據涵蓋了現有的所有文件數據類型,包括國土GIS數據、所有格式的辦公文檔、文本、圖片、照片、XML、HTML、各類報表、圖像、音頻、視頻信息等等多種類型。
非結構化數據的特點:
(1)在現有的互聯網應用中,存儲在海量的復雜類型數據結構,使用傳統的關系型數據庫將無法滿足業務和應用的快速響應需求。數據用戶不僅僅需要采用計算工作的分析,而且還要走動從其本身的社會活動和用戶決策中學習。自然語言處理(NLP)、模式感知和分類以及數據挖掘就是最生動的案例。
(2)盡管存儲海量數據的設備成本近幾年有大幅度的下降,但是非結構化數據的體量與多樣性卻指數級上升。相對于傳統的結構化數據,非結構化數據的分析和利用將需要更多的數據工程師和高級分析師,畢竟結構化的數據將相當于一分簡潔的數據清單,而非結構化數據更像是種類繁多的雜貨店。
(3)非結構化數據在任何地方都可以比較容易得到,可以在公司內部的郵件信息、與別人的聊天記錄以及通過搜集得到的各種調查結果中獲得非結構化數據,還有可以從個人在網站上的一些評論、在客戶關系管理系統中的某些評論,以及從大家使用的個人應用程序中得到的一些文本字段。當然還有在公司外部的社會媒體、論壇、一些人們感興趣的話題的評論語言等等。
(4)非結構化的大量數據中存在著巨大的商業價值,非結構化的數據可以通過各種各樣的途徑獲得,通過利用可視化的數據分析工具能夠幫助企業全面的了解市場和用戶需求,定位企業發展的不平衡點,顯著的降低企業的運營風險。
以上梳理了結構化數據、非結構化數據的定義及特點,希望對你有所幫助,如果你想了解更多相關內容,敬請關注三個皮匠報告的行業知識欄目。
推薦閱讀:
愛分析:中國非結構化數據中臺實踐白皮書(55頁).pdf
愛分析:非結構化數據中臺實踐白皮書V2(65頁).pdf
中國電子技術標準化研究院:非結構化數據管理解決方案白皮書(2020 版)(57頁).pdf