信息化時代,數據已成為國家重點發展的戰略資源,對經濟社會生活的影響日漸深遠,為更好地挖掘數據背后的價值,數據科學應運而生。那么,什么是數據科學呢?它的內涵是?當前數據科學技術有哪些?本文將具體介紹。

1.什么是數據科學
徐宗本在《數據科學:它的內容、方法、意義與發展》一書中將數據科學定義為“數據科學是有關數據價值鏈實現的基礎理論與方法學,運用建模、分析、計算和學習雜糅的方法研究從數據到信息、從信息到知識、從知識到決策的轉換,并實現對現實世界的認知與操控”。
2.數據科學的發展
在1974年出版的《Concise Survey of Computer
Methods》一書中首次提到了“數據科學”一詞,書中將數據科學描述為“數據科學是一門基于數據處理的科學”,作者認為數據處理后可以和其他領域建立起聯系,這種聯系將為該領域的科學提供參考與借鑒。
然而自上世紀70年代出現以來,數據科學并未得到學術界的重視,直至新世紀的到來,數據科學才正式在學術界引發關注,國際雜志《International
Statistical Review》上發表的“Data Science:An Action Plan for Expanding the Technical
Areas of the Field of
Statistics”一文中提出“數據科學是統計學的一個重要研究方向”,使得統計學領域開始關注數據科學的研究。
數據科學從學術界走入大眾視野主要是經歷了以下兩個標志性事件:
1)2012 年,Davenport 和 Patil 在《Harvard Business Review》上發表的“DataScientist:The
Sexiest Job of the 21st Century”指出“數據科學家是公司競相招聘的對象”;
2)2015年,Patil被聘請成為白宮首任數據科學家,這是美國白宮第一次設立數據科學家崗位。
3.數據科學的內涵
從本體論的角度來講,數據科學是“用科學的方法來研究數據”的一門新科學。在數字世界中,除了可以反映現實世界中的科學規律,其本身是否也具有類似現實世界的一般性規律?既然現實世界客觀存在共性規律,如能量守恒定律、牛頓定律等,那么反映現實世界的數字世界也可能具備某些特有的一般性規律[28]。數據是現實世界在數字世界中的符號化表示,是數字世界的主要構成元素。通過研究數據的歷史和進化、形成和發展、類型和屬性,獲取其本身蘊含的規律和價值,進一步揭示數字世界的內在機理,也是數據科學研究的更基本的問題。
從學科地位的角度來講,數學科學是一門“理工交叉、文理交融”的學科。其主體構成為數學與統計學、計算機科學與人工智能學科以及各專業領域科學,其中數學與統計學為數據科學提供了研究的理論基礎,計算機科學與人工智能學科為數據科學提供了研究的工具和方法,各專業領域知識為數據科學提供了研究的經驗與實踐應用場景。換言之,數據科學是一套基于大數據時代出現的新理論、新技術、新方法、新模型、新工具和新應用來研究新挑戰、新機會、新思維和新模式的知識體系。數據科學生成的多源性、內涵的交叉性以及知識的多學科性搭建起溝通不同學科的橋梁,構建起自身學科體系。
4.數據科學技術分類
數據科學家最廣泛使用的有三種統計和分析技術。以下了解可用于執行分析的各種數據科學技術和方法:
(1)分類技術
在分類問題中,數據科學家要回答的首要問題是:“這些數據屬于什么類別?”將數據分類的原因很多。也許數據是手繪的圖像,人們需要知道圖像代表什么字母或數字?;蛘叽碣J款申請的數據,想知道它應該屬于“已批準”還是“已拒絕”類別。其他分類可以集中在確定患者治療方案或電子郵件是否是垃圾郵件。
數據科學家用來將數據過濾到類別中的算法和方法包括:
?決策樹。這些是分支邏輯結構,使用機器生成的參數和數值樹將數據分類為已定義的類別。
?貝葉斯分類器。利用概率的力量,貝葉斯分類器可以幫助將數據分為簡單的類別。
?支持向量機(SVM)。支持向量機的目標是繪制一條寬邊距的曲線或平面,將數據分成不同的類別。
?K-近鄰算法。該技術使用一種簡單的“惰性決策”方法,根據數據集中最鄰近的類別來確定數據點應該屬于哪個類別。
?邏輯回歸。盡管使用了分類技術,但它使用將數據擬合到一條線的想法來區分每一邊的不同類別。這條線的形狀使數據可以移至某個類別。
?神經網絡。這種方法使用訓練有素的人工神經網絡,尤其是具有多個隱藏層的深度學習網絡。神經網絡已經顯示出強大的分類能力,其中包含大量的訓練數據。
(2)關聯分析技術
關聯分析是一種相關但獨立的技術。其背后的主要思想是找到描述不同數據點之間公共性的關聯規則。與聚類類似,人們正在尋找數據所屬的組。但是在這種情況下,試圖確定何時數據點一起出現,而不是僅僅識別它們的集群。在聚類中,其目標是將大數據集劃分為可識別的組,而通過關聯分析,人們正在測量數據點之間的關聯程度。
(3)聚類技術
另一組數據科學技術側重于回答這樣一個問題:“這些數據是如何分組的,不同的數據點屬于哪些組?”數據科學家可以發現相關數據點的聚類,這些數據點具有共同的各種特征,從而在分析應用程序中產生有用的信息。
可用于聚類用途的方法包括:
?K-均值聚類。K-均值算法確定數據集中的一定數量的聚類,并找到“質心”,以標識不同聚類的位置,并將數據點分配給最接近的聚類。
?均值漂移聚類。另一種基于質心的聚類技術,它可以單獨使用,也可以通過移動指定的質心來改進k-均值聚類。
?DBSCAN。DBSCAN是“基于密度的帶噪空間聚類算法DBSCAN”的縮寫,是另一種發現聚類的技術,它使用一種更高級的方法來識別聚類的密度。
?高斯混合模型。高斯混合模型通過使用高斯分布將數據分組在一起而不是將數據視為奇點來幫助找到聚類。
?分層聚類。與決策樹類似,這種技術使用層次化的分支方法來查找聚類。
(4)回歸技術
如果不知道數據屬于哪一類,而是想知道不同數據點之間的關系該怎么辦?回歸的主要思想是回答以下問題:“這個數據的預測值是多少?”一個簡單的概念來自“均值回歸”的統計概念,它可以是一個獨立變量和一個因變量之間的直接回歸,也可以是一個試圖找到多個變量之間關系的多維回歸。
例如決策樹支持向量機(SVM)和神經網絡一些分類技術,也可以用來進行回歸。此外,數據科學家可以使用的回歸技術包括:
?線性回歸。作為數據科學中應用最廣泛的方法之一,這種方法試圖根據兩個變量之間的相關性找到最適合所分析數據的曲線。
?套索回歸。Lasso(套索)是“最小絕對收縮和選擇算符”的縮寫,是一種通過在最終模型中使用數據子集來提高線性回歸模型預測準確性的技術。
?多元回歸。這涉及尋找適合可能包含多個變量的多維數據的線或平面的不同方法。
以上梳理了數據科學的定義、內涵及主要技術分類,希望對你有所幫助,隨著大數據的持續發展,數據的價值日益凸顯,數據科學必將發揮重大作用。如果你想了解更多相關內容,敬請關注三個皮匠報告的行業知識欄目。
本文由@2200 發布于三個皮匠報告網站,未經授權禁止轉載。
推薦閱讀:
什么是數據加密技術?有哪些?應用價值分析
大數據產業政策有哪些?2022最新大數據產業政策梳理
什么是大數據產業?有哪些?特征包括?
IBM:從數據科學到數據外交(25頁).pdf