什么是數據科學？內涵是？數據科學技術一覽

2022-07-04 16:32:22 作者：2200 2253

信息化時代，數據已成為國家重點發展的戰略資源，對經濟社會生活的影響日漸深遠，為更好地挖掘數據背后的價值，數據科學應運而生。那么，什么是數據科學呢?它的內涵是?當前數據科學技術有哪些?本文將具體介紹。

數據科學

1.什么是數據科學

徐宗本在《數據科學：它的內容、方法、意義與發展》一書中將數據科學定義為“數據科學是有關數據價值鏈實現的基礎理論與方法學，運用建模、分析、計算和學習雜糅的方法研究從數據到信息、從信息到知識、從知識到決策的轉換，并實現對現實世界的認知與操控”。

2.數據科學的發展

在1974年出版的《Concise Survey of Computer Methods》一書中首次提到了“數據科學”一詞，書中將數據科學描述為“數據科學是一門基于數據處理的科學”，作者認為數據處理后可以和其他領域建立起聯系，這種聯系將為該領域的科學提供參考與借鑒。

然而自上世紀70年代出現以來，數據科學并未得到學術界的重視，直至新世紀的到來，數據科學才正式在學術界引發關注，國際雜志《International Statistical Review》上發表的“Data Science：An Action Plan for Expanding the Technical Areas of the Field of Statistics”一文中提出“數據科學是統計學的一個重要研究方向”，使得統計學領域開始關注數據科學的研究。

數據科學從學術界走入大眾視野主要是經歷了以下兩個標志性事件：

1)2012 年，Davenport 和 Patil 在《Harvard Business Review》上發表的“DataScientist：The Sexiest Job of the 21st Century”指出“數據科學家是公司競相招聘的對象”;

2)2015年，Patil被聘請成為白宮首任數據科學家，這是美國白宮第一次設立數據科學家崗位。

3.數據科學的內涵

從本體論的角度來講，數據科學是“用科學的方法來研究數據”的一門新科學。在數字世界中，除了可以反映現實世界中的科學規律，其本身是否也具有類似現實世界的一般性規律?既然現實世界客觀存在共性規律，如能量守恒定律、牛頓定律等，那么反映現實世界的數字世界也可能具備某些特有的一般性規律[28]。數據是現實世界在數字世界中的符號化表示，是數字世界的主要構成元素。通過研究數據的歷史和進化、形成和發展、類型和屬性，獲取其本身蘊含的規律和價值，進一步揭示數字世界的內在機理，也是數據科學研究的更基本的問題。

從學科地位的角度來講，數學科學是一門“理工交叉、文理交融”的學科。其主體構成為數學與統計學、計算機科學與人工智能學科以及各專業領域科學，其中數學與統計學為數據科學提供了研究的理論基礎，計算機科學與人工智能學科為數據科學提供了研究的工具和方法，各專業領域知識為數據科學提供了研究的經驗與實踐應用場景。換言之，數據科學是一套基于大數據時代出現的新理論、新技術、新方法、新模型、新工具和新應用來研究新挑戰、新機會、新思維和新模式的知識體系。數據科學生成的多源性、內涵的交叉性以及知識的多學科性搭建起溝通不同學科的橋梁，構建起自身學科體系。

4.數據科學技術分類

數據科學家最廣泛使用的有三種統計和分析技術。以下了解可用于執行分析的各種數據科學技術和方法：

(1)分類技術

在分類問題中，數據科學家要回答的首要問題是：“這些數據屬于什么類別?”將數據分類的原因很多。也許數據是手繪的圖像，人們需要知道圖像代表什么字母或數字?；蛘叽碣J款申請的數據，想知道它應該屬于“已批準”還是“已拒絕”類別。其他分類可以集中在確定患者治療方案或電子郵件是否是垃圾郵件。

數據科學家用來將數據過濾到類別中的算法和方法包括：

?決策樹。這些是分支邏輯結構，使用機器生成的參數和數值樹將數據分類為已定義的類別。

?貝葉斯分類器。利用概率的力量，貝葉斯分類器可以幫助將數據分為簡單的類別。

?支持向量機(SVM)。支持向量機的目標是繪制一條寬邊距的曲線或平面，將數據分成不同的類別。

?K-近鄰算法。該技術使用一種簡單的“惰性決策”方法，根據數據集中最鄰近的類別來確定數據點應該屬于哪個類別。

?邏輯回歸。盡管使用了分類技術，但它使用將數據擬合到一條線的想法來區分每一邊的不同類別。這條線的形狀使數據可以移至某個類別。

?神經網絡。這種方法使用訓練有素的人工神經網絡，尤其是具有多個隱藏層的深度學習網絡。神經網絡已經顯示出強大的分類能力，其中包含大量的訓練數據。

(2)關聯分析技術