1.大數據
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,該公司在《大數據:創新、競爭和生產力的下一個前沿領域》報告中給出的定義是:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。同時強調,并不是說一定要超過特定TB級的數據集才能算是大數據(Manyika
et al.,2014)。

IDC(Benjamin Woo World wide BigData Technology and
Services,2012)對大數據的定義是:大數據一般涉及2種或2種以上的數據形式。大數據通常要收集超過100TB的數據信息,并且是實時、高速數據流,或者從容量較小的數據開始,每年會增長超過60%的數據量。
2.大數據特征
第一,數量(Volume),指的是數據的量大。隨著可穿戴移動設備、物聯網和云計算等技術的發展,不僅是人,包括物的軌跡也可以被記錄,數據得以大量產生。在公元前
3
世紀,希臘著名的圖書館——亞歷山大圖書館搜集了當時所能搜集到的所有書寫品,可以說是當時世界上能搜集到的知識都匯聚在那里。但如今,世界上每一個人可獲得的數據信息量都相當于當時亞歷山大圖書館數據總存儲量的
320 倍。
第二,多樣性(Variety),即數據類型繁多。傳感器、智能設備、社交平臺等協作,使得網絡中的數據變得復雜,在傳統的關系型數據基礎上,出現了半結構化和非結構化數據,這些復雜數據多來自于網頁、網絡日志、搜索引擎、論壇、E-mail、點擊流數據、圖片文檔,以及被動型傳感器原始數據。
第三,速度(Velocity),即處理速度快?!皵祿仨氃诿爰墪r間內分析得出結果,否則會失去價值”,這是著名的“1
秒定律”。如今,越來越多的數據挖掘趨于前端化,即提前感知、預測服務對象所需的個性化服務,并直接提供服務。比如電子商務網站基于用戶點擊、瀏覽等歷史搜索行為,實時地預測客戶的興趣和購買意圖,并據此向客戶推送商品,引導客戶購買。亞馬遜、淘寶等個性推薦系統就是這個原理。
第四,真實性(Veracity),即追求高質量的數據。數據本身并不重要,重要的是數據為決策提供參考和支持。數據的規模和數量并不能為決策提供幫助,數據的價值在于其真實性和高質量,這是從數據中提取價值的前提,是獲得知識和信息的基礎,數據的真實性才是決策成功的堅實保障。
3.大數據與傳統數據的區別
(1)“大數據”打破了傳統數據對模型和算法的依賴。以往計算機在分析問題時如果想要得到精準的結論,需要在理順邏輯、理解因果的前提下,先建立合理的模型來描述問題,再設計精妙的算法來分析處理。所以,建模和算法是決定成敗的關鍵。而大數據出現后,人們發現,當數據足夠大時,數據本身(而不是研究數據的模型和算法)就能保證數據分析結構的準確性。
(2)“大數據”打破了因果邏輯關系對傳統數據分析的束縛。以往在建立模型前,需要先理順其中的因果邏輯關系,而大數據擁有足夠多的數據,不需要了解具體的因果關系也能夠得出結論。比如
Google 翻譯系統并未設置語法規則,但它根據數據庫中所有用戶的寫作習慣,將最常用、出現頻率最高的翻譯方式推薦給用戶,結果往往頗為可靠。
(3)“大數據”能收集的數據遠超傳統數據。由于能夠處理多種數據結構,大數據能夠在最大程度上利用互聯網上的一切數據進行分析。以往計算機只能處理前期經過結構化處理的、存儲在相應數據庫中的數據,但大數據技術對數據的結構要求大大降低,互聯網上人們留下的所有類型的信息都可以實時處理。
以上梳理了大數據的定義、特征及其與傳統數據的區別,希望對你有所幫助,如果你想了解更多相關內容,敬請關注三個皮匠報告的行業知識欄目。
本文由@2200 發布于三個皮匠報告網站,未經授權禁止轉載。
推薦閱讀:
大數據服務產業鏈及其發展趨勢分析
什么是大數據服務?大數據服務類型有什么?
什么是大數據營銷?特點是?與傳統營銷的區別