您的當前位置: 首頁 > 新聞中心 > 行業知識 > 什么是數據科學?內涵是?數據科學技術一覽

什么是數據科學?內涵是?數據科學技術一覽

信息化時代,數據已成為國家重點發展的戰略資源,對經濟社會生活的影響日漸深遠,為更好地挖掘數據背后的價值,數據科學應運而生。那么,什么是數據科學呢?它的內涵是?當前數據科學技術有哪些?本文將具體介紹。

數據科學

1.什么是數據科學

徐宗本在《數據科學:它的內容、方法、意義與發展》一書中將數據科學定義為“數據科學是有關數據價值鏈實現的基礎理論與方法學,運用建模、分析、計算和學習雜糅的方法研究從數據到信息、從信息到知識、從知識到決策的轉換,并實現對現實世界的認知與操控”。

2.數據科學的發展

在1974年出版的《Concise Survey of Computer Methods》一書中首次提到了“數據科學”一詞,書中將數據科學描述為“數據科學是一門基于數據處理的科學”,作者認為數據處理后可以和其他領域建立起聯系,這種聯系將為該領域的科學提供參考與借鑒。

然而自上世紀70年代出現以來,數據科學并未得到學術界的重視,直至新世紀的到來,數據科學才正式在學術界引發關注,國際雜志《International Statistical Review》上發表的“Data Science:An Action Plan for Expanding the Technical Areas of the Field of Statistics”一文中提出“數據科學是統計學的一個重要研究方向”,使得統計學領域開始關注數據科學的研究。

數據科學從學術界走入大眾視野主要是經歷了以下兩個標志性事件:

1)2012 年,Davenport 和 Patil 在《Harvard Business Review》上發表的“DataScientist:The Sexiest Job of the 21st Century”指出“數據科學家是公司競相招聘的對象”;

2)2015年,Patil被聘請成為白宮首任數據科學家,這是美國白宮第一次設立數據科學家崗位。

3.數據科學的內涵

從本體論的角度來講,數據科學是“用科學的方法來研究數據”的一門新科學。在數字世界中,除了可以反映現實世界中的科學規律,其本身是否也具有類似現實世界的一般性規律?既然現實世界客觀存在共性規律,如能量守恒定律、牛頓定律等,那么反映現實世界的數字世界也可能具備某些特有的一般性規律[28]。數據是現實世界在數字世界中的符號化表示,是數字世界的主要構成元素。通過研究數據的歷史和進化、形成和發展、類型和屬性,獲取其本身蘊含的規律和價值,進一步揭示數字世界的內在機理,也是數據科學研究的更基本的問題。

從學科地位的角度來講,數學科學是一門“理工交叉、文理交融”的學科。其主體構成為數學與統計學、計算機科學與人工智能學科以及各專業領域科學,其中數學與統計學為數據科學提供了研究的理論基礎,計算機科學與人工智能學科為數據科學提供了研究的工具和方法,各專業領域知識為數據科學提供了研究的經驗與實踐應用場景。換言之,數據科學是一套基于大數據時代出現的新理論、新技術、新方法、新模型、新工具和新應用來研究新挑戰、新機會、新思維和新模式的知識體系。數據科學生成的多源性、內涵的交叉性以及知識的多學科性搭建起溝通不同學科的橋梁,構建起自身學科體系。

4.數據科學技術分類

數據科學家最廣泛使用的有三種統計和分析技術。以下了解可用于執行分析的各種數據科學技術和方法:

(1)分類技術

在分類問題中,數據科學家要回答的首要問題是:“這些數據屬于什么類別?”將數據分類的原因很多。也許數據是手繪的圖像,人們需要知道圖像代表什么字母或數字?;蛘叽碣J款申請的數據,想知道它應該屬于“已批準”還是“已拒絕”類別。其他分類可以集中在確定患者治療方案或電子郵件是否是垃圾郵件。

數據科學家用來將數據過濾到類別中的算法和方法包括:

?決策樹。這些是分支邏輯結構,使用機器生成的參數和數值樹將數據分類為已定義的類別。

?貝葉斯分類器。利用概率的力量,貝葉斯分類器可以幫助將數據分為簡單的類別。

?支持向量機(SVM)。支持向量機的目標是繪制一條寬邊距的曲線或平面,將數據分成不同的類別。

?K-近鄰算法。該技術使用一種簡單的“惰性決策”方法,根據數據集中最鄰近的類別來確定數據點應該屬于哪個類別。

?邏輯回歸。盡管使用了分類技術,但它使用將數據擬合到一條線的想法來區分每一邊的不同類別。這條線的形狀使數據可以移至某個類別。

?神經網絡。這種方法使用訓練有素的人工神經網絡,尤其是具有多個隱藏層的深度學習網絡。神經網絡已經顯示出強大的分類能力,其中包含大量的訓練數據。

(2)關聯分析技術

關聯分析是一種相關但獨立的技術。其背后的主要思想是找到描述不同數據點之間公共性的關聯規則。與聚類類似,人們正在尋找數據所屬的組。但是在這種情況下,試圖確定何時數據點一起出現,而不是僅僅識別它們的集群。在聚類中,其目標是將大數據集劃分為可識別的組,而通過關聯分析,人們正在測量數據點之間的關聯程度。

(3)聚類技術

另一組數據科學技術側重于回答這樣一個問題:“這些數據是如何分組的,不同的數據點屬于哪些組?”數據科學家可以發現相關數據點的聚類,這些數據點具有共同的各種特征,從而在分析應用程序中產生有用的信息。

可用于聚類用途的方法包括:

?K-均值聚類。K-均值算法確定數據集中的一定數量的聚類,并找到“質心”,以標識不同聚類的位置,并將數據點分配給最接近的聚類。

?均值漂移聚類。另一種基于質心的聚類技術,它可以單獨使用,也可以通過移動指定的質心來改進k-均值聚類。

?DBSCAN。DBSCAN是“基于密度的帶噪空間聚類算法DBSCAN”的縮寫,是另一種發現聚類的技術,它使用一種更高級的方法來識別聚類的密度。

?高斯混合模型。高斯混合模型通過使用高斯分布將數據分組在一起而不是將數據視為奇點來幫助找到聚類。

?分層聚類。與決策樹類似,這種技術使用層次化的分支方法來查找聚類。

(4)回歸技術

如果不知道數據屬于哪一類,而是想知道不同數據點之間的關系該怎么辦?回歸的主要思想是回答以下問題:“這個數據的預測值是多少?”一個簡單的概念來自“均值回歸”的統計概念,它可以是一個獨立變量和一個因變量之間的直接回歸,也可以是一個試圖找到多個變量之間關系的多維回歸。

例如決策樹支持向量機(SVM)和神經網絡一些分類技術,也可以用來進行回歸。此外,數據科學家可以使用的回歸技術包括:

?線性回歸。作為數據科學中應用最廣泛的方法之一,這種方法試圖根據兩個變量之間的相關性找到最適合所分析數據的曲線。

?套索回歸。Lasso(套索)是“最小絕對收縮和選擇算符”的縮寫,是一種通過在最終模型中使用數據子集來提高線性回歸模型預測準確性的技術。

?多元回歸。這涉及尋找適合可能包含多個變量的多維數據的線或平面的不同方法。

以上梳理了數據科學的定義、內涵及主要技術分類,希望對你有所幫助,隨著大數據的持續發展,數據的價值日益凸顯,數據科學必將發揮重大作用。如果你想了解更多相關內容,敬請關注三個皮匠報告行業知識欄目。

本文由@2200 發布于三個皮匠報告網站,未經授權禁止轉載。

推薦閱讀:

什么是數據加密技術?有哪些?應用價值分析

大數據產業政策有哪些?2022最新大數據產業政策梳理

什么是大數據產業?有哪些?特征包括?

IBM:從數據科學到數據外交(25頁).pdf

本文由作者2200發布,版權歸原作者所有,禁止轉載。本文僅代表作者個人觀點,與本網無關。本文文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

相關報告

2021年電石PVC價格趨勢及新金路公司主營業務分析報告(19頁).pdf
2021年電石PVC價格趨勢及新金路公司主營業務分析報告(19頁).pdf

另一方面原因則是極端氣候導致海外 PVC 設施停產。今年 2 月份,美國德克薩斯州遭遇寒潮襲擊,多個化工企業煉化設施被迫關?;蛐疾豢煽沽?。其中包括臺塑 80 萬噸 PVC 生產設施,OxyChem 的 127 萬噸 PVC 設施,Shintech的 145 萬噸 PVC 設施等,受影響的 PVC 產能約

【公司研究】新金路-深度報告:電石PVC價格上漲業績有望改善-210429(22頁).pdf
【公司研究】新金路-深度報告:電石PVC價格上漲業績有望改善-210429(22頁).pdf

另一方面原因則是極端氣候導致海外 PVC 設施停產。今年 2 月份,美國德克薩斯州遭遇寒潮襲擊,多個化工企業煉化設施被迫關?;蛐疾豢煽沽?。其中包括臺塑 80 萬噸 PVC 生產設施,OxyChem 的 127 萬噸 PVC 設施,Shintech的 145 萬噸 PVC 設施等,受影響的 PVC 產能約

【研報】化工行業深度報告:周期巡禮之PVC成本端電石價格支撐供給端乙烯法擴張-20200706[24頁].pdf
【研報】化工行業深度報告:周期巡禮之PVC成本端電石價格支撐供給端乙烯法擴張-20200706[24頁].pdf

請務必閱讀正文之后的請務必閱讀正文之后的重要聲明重要聲明部分部分 證券研究報告證券研究報告/行業深度行業深度報告報告 2020年年07月月06日日 化工 周期巡禮之 PVC: 成本端電石價格支撐,供給端乙烯法擴張 評級評級:增持增持(維持維持) 分析師分析師 謝楠謝楠 執業證書編號:執業證書編號:S074

【研報】PVC糊樹脂行業報告:PVC手套需求大增糊樹脂價格步入上行通道-20200713[15頁].pdf
【研報】PVC糊樹脂行業報告:PVC手套需求大增糊樹脂價格步入上行通道-20200713[15頁].pdf

Table_IndustryInfo 2020 年年 07 月月 13 日日 強于大市強于大市(維持維持) 證券研究報告證券研究報告行業研究行業研究化工化工 PVC 糊樹脂行業報告糊樹脂行業報告 PVC 手套需求大增手套需求大增,糊樹脂,糊樹脂價格步入上行通道價格步入上行通道 投資要點投資要點 西南證券研

【研報】PVC糊樹脂行業研究報告:PVC糊樹脂價格超預期需求拉動景氣有望持續-210203(14頁).pdf
【研報】PVC糊樹脂行業研究報告:PVC糊樹脂價格超預期需求拉動景氣有望持續-210203(14頁).pdf

請務必閱讀正文之后的免責條款部分 全球視野全球視野 本土智慧本土智慧 行業研究行業研究 Page 1 證券研究報告證券研究報告深度報告深度報告 基礎化工基礎化工 PVC 糊樹脂行業研究報告糊樹脂行業研究報告 超配超配 (維持評級) 2021 年年 02 月月 03 日日 一年該行業與一年該行業與上證綜指上證

【研報】化工行業:醋酸價格持續上行腈綸、PVC啟動漲價-20201206(20頁).pdf
【研報】化工行業:醋酸價格持續上行腈綸、PVC啟動漲價-20201206(20頁).pdf

行業行業報告報告 | 行業研究周報行業研究周報 請務必閱讀正文之后的信息披露和免責申明 1 化工化工 證券證券研究報告研究報告 2020 年年 12 月月 06 日日 投資投資評級評級 行業行業評級評級 中性(維持評級) 上次評級上次評級 中性 作者作者 資料來源:貝格數據 相關報告相關報告 1 化工-行

冀中能源-長協價格跟隨市場PVC、玻纖將帶來增量業績有望快速增厚-211011(19頁).pdf
冀中能源-長協價格跟隨市場PVC、玻纖將帶來增量業績有望快速增厚-211011(19頁).pdf

金牛天鐵擁有150/年焦炭產能,上半年焦炭量價齊升。上半年,完成焦炭產量83.33 萬噸,同比上升 1.67 萬噸(+2.03%);焦炭銷量83.49 萬噸,同比上升1.87 萬噸(+2.29%)。上半年實現凈利潤 3.15 億元,同比大幅增長158%,為 2020 年全年利潤(4.7 億元)的 67%。聚

2021年建筑材料行業PVC地板海外需求趨勢分析報告(25頁).pdf
2021年建筑材料行業PVC地板海外需求趨勢分析報告(25頁).pdf

受貿易摩擦影響,產品價格部分下降。從加征關稅的時間節點看,主要在 2018 年 10 月 -2019 年 10 月之間,從愛麗家居及海象新材的產品出廠均價看,均呈現出一定程度的下降(海象 WPC 均價上行主要原因是產品結構變化,低端產品占比下降)。根據海象新材招股書,公司因兩次關稅稅率調整導致公司銷售價格大

客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站