《清華大學:大數據與云計算(110頁).pdf》由會員分享,可在線閱讀,更多相關《清華大學:大數據與云計算(110頁).pdf(110頁珍藏版)》請在三個皮匠報告上搜索。
1、大數據與云計算 清華大學? 自動化系 范玉順 2020年8月11日,深圳 提綱提綱 大數據的產生背景大數據的產生背景 大數據的特征與思維轉變大數據的特征與思維轉變 大數據產業發展大數據產業發展 大數據應用大數據應用 云計算及其產業發展情況云計算及其產業發展情況 云計算應用云計算應用 2 3 數據增長的速度 保險公司 美國航空 聯邦快遞 花旗銀行 沃爾瑪 谷歌 臉譜網站 信息技術的發展催生大數據熱 基礎基礎:計算機存儲、計算能力的提升,數據存儲成本下降 19551955年,年,1MB1MB的存儲器,的存儲器,60006000美元美元 19931993年,年,1MB1MB的存儲器,的存儲器,1 1
2、美元美元 20102010年,年,1MB1MB的存儲器,的存儲器,1 1美分美分 大數據的來源 1.交易數據,包括電子商務 2.移動互聯、社交網絡 3.物聯網感知數據:海洋、天氣、工業設備監控、物流跟蹤 4.政府開放數據 離散制造業離散制造業 政府政府 傳媒業傳媒業 流程制造業流程制造業 銀行業銀行業 醫療業醫療業 投資證券業投資證券業 專業服務業專業服務業 零售業零售業 教育業教育業 保險業保險業 交通業交通業 批發業批發業 共用事業共用事業 服務資源行業服務資源行業 消費娛樂業消費娛樂業 建筑業建筑業 美國各行業數據存儲量 (PBPB) 966 848 715 694 619 434 42
3、9 364 411 269 243 227 202 194 116 106 51 沃爾瑪沃爾瑪2010數據庫的大小數據庫的大小 為為2500TB,大約,大約2PB 1. 交易數據 淘寶1個月增加 1.5PB數據 Google 從單純的搜索引擎公司發展為目前包括blog、 EmailEmail、網絡分析、新聞、問答、數字圖書、網絡分析、新聞、問答、數字圖書、日 歷、SaaS、云計算、地圖、廣告、閱讀、圖片、 視頻等數十種服務的綜合IoS服務提供商; 搜索:至少擁有10億用戶;在線視頻:每月5 億的訪問量; 博客:4億讀者;Gmail:2億用戶; Android:智能手機OS的25%市場份額;Ch
4、rome: 17%的市場份額。 6 Facebook 14億:注冊用戶 100億:分享的內容條數 45億:“贊”的數量, 3.5億:上傳照片數 600+TB:新產生的數據 105TB:每半小時通過Hive掃描的數據 300+PB:數據容量 1.網絡用戶數據 30億互聯網用戶 6.34億個網站 12000億次谷歌搜索(2012年) 14億位Facebook用戶 2億位Twitter用戶 2億位LinkedIn用戶 1.35億位Google+活躍用戶 2.社交媒體交互數據 2012年共發布了1.75億條Tweet信息 全球90%的數據產生于過去兩年 3.移動端和影像 20億智能手機用戶 50億手機
5、用戶 2. 社交網絡 由于傳感器大規模全方位的布網和高速高精度傳感器的使用,物聯網將產生 海量的數據。 截至2010年,全球RFID數量已經超過了300億個。 一個大型城市電力物聯網每天產生的數據可達TB級,一個大型城市交通物聯 網每天產生的數據可達10TB。 各種記錄、通信和可穿戴設備。 智能手環 谷歌眼鏡 智能手機 行車記錄儀 3. 物聯網感知數據 Source:Siemens AG. 2013. 每臺燃機24小時 運行信息約2TB 產品使用服務過程中的技術狀態管理 監測變量數目5000個/每秒 計算1000個以上的中間模型 實時診斷故障,優化運行狀態 減少故障、提高效率、降低廢氣排放 4
6、. 政府開放數據 9 www.data.gov,截止到2019年5月,data.gov平臺上已經包含了25萬個數據集,這些 數據集涵蓋了農業、天氣、教育、能源、制造等近50個公共管理和生活領域。 美國人的時間花費、小時工資、勞動力統計和失業人數統計 10 經濟與人口 20002000年,新產生的數據年,新產生的數據1000PB1000PB 20102010年,全球企業新存儲的數據超過年,全球企業新存儲的數據超過 7000PB7000PB。 Jim GrayJim Gray提出提出“新摩爾定律”“新摩爾定律” 大數據的意義是人類可以分析和使用的數據大數據的意義是人類可以分析和使用的數據 大大增加
7、,通過對這些數據的交換、整合和大大增加,通過對這些數據的交換、整合和 分析,人類可以發現新的知識、創造新的價分析,人類可以發現新的知識、創造新的價 值,帶來值,帶來“大知識”、“大科學”、“大利“大知識”、“大科學”、“大利 潤”和“大發展”潤”和“大發展”。 麥肯錫麥肯錫20112011年報告:大數據,將成為全世年報告:大數據,將成為全世 界下一個創新、競爭和生產率提高的前沿。界下一個創新、競爭和生產率提高的前沿。 11 Jim Gray,計算機領域圖靈獎獲 得者,1944年出生,1998年提 出新摩爾定律,2007年1月28 號迷失在大海中. 大數據可以創造大知識 1.實驗:經驗知識 2.
8、研究:理論知識E=mC2 3.計算:模擬、仿真 4.大數據:跨學科的大知識 12 思維流:GPD、專利、交通、 社交、行為 測量思維流的速度與成本來評 價城市創新力 大數據的組成 海量交易數據 企業內部的經營交易信息主要包括聯機交易數據和聯機 分析數據,是結構化的、通過關系數據庫進行管理和訪 問的靜態、歷史數據。通過這些數據,我們能了解過去 發生了什么。 大數據包括海量交易數據集和交 互數據集在內的所有數據 海量交互數據 源于Facebook、Twitter、LinkedIn及其他來源的社交 媒體數據構成。它包括了呼叫詳細記錄、設備和傳感器 信息、GPS和地理定位映射數據、通過管理文件傳輸協
9、議傳送的海量圖像文件、Web文本和點擊流數據、科學 信息、電子郵件等等??梢愿嬖V我們未來會發生什么。 海量數據處理 大數據的涌現已經催生出了設計用于數據密集型處理的 架構。例如具有開放源碼、在硬件群中運行的Apache Hadoop。 大數據 = (海量+ 類型復雜)的數據 提綱提綱 大數據的產生背景大數據的產生背景 大數據的特征與思維轉變大數據的特征與思維轉變 大數據產業發展大數據產業發展 大數據應用大數據應用 云計算及其產業發展情況云計算及其產業發展情況 云計算應用云計算應用 14 大數據的特征1(量大) 價值密 度 (Vera city) 數據類 型 (Variet y) 處理速 度 (
10、Veloc ity) 數據規 模 (Volu me) 大數據 Big Data 政府以及企業數據的開放使得社會獲取 傳統的海量數據成為可能,而互聯網、 智能終端的發展則以前所未有的速度為 人類數據庫不斷增加著新的數據。 大存儲 量 大計算 量 在數據產生的地區分布方面,新興經濟體(如中國、印度 等)將產生并持有越來越多的數據。到了2012年,新興市 場的數據份額達到36%,在2020年這一比例將會達到62%, 其中我國所占比例將達到21%。 谷歌每天處理的搜索量超 過30億次,每秒響應3.4 萬次搜索。 大數據的特征2(種類多) 價值密 度 (Vera city) 數據類 型 (Varie t
11、y) 處理速 度 (Velo city) 數據規 模 (Volu me) 大數據 Big Data 16 數據來 源多 數據格 式多 結構化數據 半結構化數據 非結構化數據 互聯網企業:SNS、微博、視頻網站、電 子商務網站。 物聯網、移動設備、終端中的商品、個人 位置、傳感器采集的數據。 聯通、移動、電信等通信和互聯網運營商。 天文望遠鏡拍攝的圖像、視頻數據、氣象 學里面的衛星云圖數據等。 社會組織各部門統計數據,如人口抽樣調 查、交通數據、衛生統計數據等。 傳統數據庫所處理的數據,即 存儲在數據表中的行數據。 不能直接用數據庫中的二維邏 輯表來表現的數據,它包括所 有格式的辦公文檔、文本、
12、圖 片、XML、HTML、各類報表、 圖像和音頻、視頻信息等。 是結構化的數據,但是不同數 據的字段和數據長度差異很大。 大數據的特征3-價值密度低 價值密度 (Veracit y) 數據類 型 (Varie ty) 處理速 度 (Velo city) 數據規 模 (Volu me) 大數據 Big Data 17 數據良莠不齊,價值密度低,但是通過 挖掘可以從數據中可以獲得大量的價值 在爆發一書中,復雜網絡研究領域的權威巴拉巴斯 指出,人類的活動是有跡可循的,其中93%的人類行為 都是可以預測的。 一旦掌握了足夠多的歷史信息,就可以從其中得到規律, 并對未來即將發生事件進行準確的預判。而大數
13、據的出 現無疑是給了人們一把打開未來之鎖的鑰匙。 通過收集、分析海量數據,并快速地從數據模型中分析 未來的趨勢,人們可以提前實現對未來的預判或是準備。 大數據的特征4-處理速度快 價值密 度 (Vera city) 數據類 型 (Varie ty) 處理速 度 (Velo city) 數據規 模 (Volu me) 大數據 Big Data 18 購物 推薦 網絡 搜索 在實際的應用中,從數據 的采集到運算分析得到結 果之間的時間要求可能是 秒、甚至是毫秒級的。股票交易、應急救援、基于地理位置的服務(LBS) 對搜索的時間要求 如果網頁加載時間超過4秒, 25%的用戶會放棄該網頁 如果網頁加載
14、時間超過10秒, 50%的用戶會放棄該網頁 抓住用戶沖動購物的瞬間提供貨 品推薦 大數據所帶來的思維轉變1-1-從抽樣樣本到全體數據 19 大數據技術的發展使我們能夠掌控全局的數據, 可以更多地關注數據中的細微異常,從而發現 原本因為采樣而被忽略的重要結論。 隨機采樣的有效性依賴于采樣的隨機性,然 而采樣的完全隨機性是難以保證的,這些偏 差就在最終的分析結果中得到體現。 例如,在2008年美國大選的民調中,幾家大 型的咨詢公司就發現,如果沒有在抽樣時將 只使用移動電話的用戶進行單獨考慮,就會 導致最終的準確度發生3個點的偏差,而如 果將這些用戶考慮進來,就可以將偏差縮小 到1個點。 大數據所帶
15、來的思維轉變2-2-從因果關系到相關關系 與因果關系不同,相關關系并不關注和回答“為什么”,它只需要能夠通過相關性確認 變量之間的關聯,并用來進行數據的預測。在掌握了海量數據的情況下尋找相關關系的實現 難度明顯小于因果關系。 整個亞馬遜網站的銷售額中,有近三分之一來自于“item-to-item”推薦 系統根據用戶購書記錄進行的推薦,但是亞馬遜并不關注用戶為何對某本 書感興趣。 社交網站情緒指數與股價走勢 美國印第安納大學的約翰博倫“我們發現,預測道瓊斯指數每日收盤 漲跌的準確度高達87.6%?!?算法玩笑 2011年4月8日,加州大學伯克利分校的邁克爾.艾登登陸亞馬遜網站買一本書 “The
16、Making of a Fly”,書中介紹蒼蠅是如何從一個單細胞成長為一只嗡嗡響 的飛蟲。 亞馬遜的2個商家的價格分別為1,730,045美元,2,198,177美元,第二天,價 格為2,194,443美元,2,788,233美元,4月18日,價格23,698,655美元,4月 19日價格下降到106美元。 第1家書店把書價定位第2家的0.9983 倍,第2家把書價定為第1家的1.270589 倍,機器自動定價。 0.9983* 1.270589=1.26842899871 21 思維轉變3-3-從錙銖必較到良莠不齊 按照美國相關規定,公共衛生部門需要隨時對流感疫情進行監控、統計疫情狀況,然而
17、由于大部分患按照美國相關規定,公共衛生部門需要隨時對流感疫情進行監控、統計疫情狀況,然而由于大部分患 者都是在患病長時間后才會向醫院尋求幫助,導致衛生部門的統計信息可能存在一定的延遲。者都是在患病長時間后才會向醫院尋求幫助,導致衛生部門的統計信息可能存在一定的延遲。 在對搜索引擎上的用戶檢索詞條和流感爆發數據進行對比分析時,谷歌公司的工程師們驚奇地發現,在對搜索引擎上的用戶檢索詞條和流感爆發數據進行對比分析時,谷歌公司的工程師們驚奇地發現, 在流感疫情爆發的前期,搜索引擎上用戶搜索的詞條會發生變化,而這些變化可以幫助衛生部門更好在流感疫情爆發的前期,搜索引擎上用戶搜索的詞條會發生變化,而這些變
18、化可以幫助衛生部門更好 地預測流感疫情。地預測流感疫情。 22 科學家們通過對頻繁檢索詞條和美國疾控中心2003年至 2008年季節性流感傳播時期的數據進行了對比分析,最終 發現了45條檢索詞條的組合,使用這些詞條進行流感發病預 測的準確率高達97%。 這個研究成果發表于2009年2月的自然雜志上,如今 來自全球的用戶都可以在谷歌流感趨勢網站上查看當前全球 流感分布圖,以了解世界上大部分國家的流感疫情。 在2009年甲型H1N1流感爆發時,谷歌流感預測為衛生部 門提供了更加及時準確的疫情信息,為疫情的防控立下了汗 馬功勞。 http:/www.google.org/flutrends/ 反恐大
19、數據興起源于911事件恐怖分子的監控失敗 恐怖分子監控失敗唯一原因缺乏信息的關聯分析 19 個恐怖分子中的6個在中央情報局(CIA)的監控名 單上 16 個人獲得美國的簽證(旅游, 學生, 工作) 最起碼有4 個人有駕駛執照;所有人都有社會保險 號碼(SSN) 關鍵人物使用真名租車,購買飛機票,等等 州法律執行機構和其他聯邦特工不知道他們在哪里, 甚至也不知道有渠道可以監控他們 信息全部都可獲得,但是沒有分析,沒有共享 思維轉變4-4-從單一數據集到多類型數據集的關聯分析 關聯分析應用案例 Facebook最近委托的一項研究指出,如果要判斷某人的性格和性情, Facebook網算法會比這個人的
20、朋友、父母或配偶更為準確。 這項研究共有86220名志愿者參與。他們每個人都有個人的Facebook網 賬號,并且填寫了有上百題的人格調查問卷。Facebook算法會根據被 測者平常在Facebook網上對網頁、圖片、影片等點贊的記錄,預測這 些志愿者的回答。 過去點贊的次數越多,預測的準確度就越高。接著,再把算法預測的結 果與參與者的同事、朋友、家人和朋友的預測進行比較。只需要過去點 贊次數超過10次,算法預測準確度就可以高于同事;70個贊,預測準確 度就會高于朋友;150個贊,準確度高于家人;到了300個贊,預測準 確度就會高于配偶。換句話說,如果你自己已經在Facebook網上點了 超過
21、300個贊,Facebook網預測你的想法和期望的準確度可能比你的另 一半要高。 25 從數據資源數據資產數據競爭力 Facebook的市值,2013年8月1000億,2014年8月2000億,2017年3月3944億美元, 2020年7月點29日,6561億美元 Facebook的核心價值正是在于它掌握的海量數據金礦14億名用戶、每天處理 3.5億張照片、45億個“贊”和100億條消息,每天增加600TB數據,總數據規模超 300PB Farecast網站根據2000億條飛行數據記錄預測出每一條航線上每班飛機每個座位的綜合票 價變更趨勢(Farecast網站于2009年6月被微軟公司收購,現
22、在作為微軟旗下Bing搜索中 旅游板塊的組成部分而存在,2014年微軟公司關閉了其機票價格走勢預測功能)。 Facebook 北極數據 中心 Facebook 股價 提綱提綱 大數據的產生背景大數據的產生背景 大數據的特征與思維轉變大數據的特征與思維轉變 大數據產業發展大數據產業發展 大數據應用大數據應用 云計算及其產業發展情況云計算及其產業發展情況 云計算應用云計算應用 26 以數據為核心競爭力的新時代 27 對于過去的企業來說,日常數據可能只是存儲在電腦的數據庫中的二進制字符,或是堆疊在文件倉庫里泛黃的 文件,這些在實際運營中所積累的資料是食之無味棄之可惜的雞肋,既占據了存儲空間,又暫時不
23、知道該如何 去使用。而在大數據時代,這些原本“雞肋”的數據將成為企業最重要的資產,在恰當的大數據思維催化下, 轉化為企業最核心的競爭力。 谷歌、Facebook、亞 馬遜和蘋果被稱為大數 據時代的新巨頭,而他 們的共同特點都是直接 面對用戶并掌控著海量 數據。 數據資產評估模型 28 規模:指數據的規模大小,可以用信息領域的存儲單 位比特(Byte)來衡量; 活性:表示數據采集的時間間隔,采集頻率越高的數 據,其活性更高; 維度:表示采集數據來源的豐富性,維度不同的數據 可能會帶來截然不同的分析結果; 關聯性:指多維數據之間的內在聯系; 顆粒度:代表數據采集的精細程度。 新鮮度:在實際的使用中
24、,數據采集的時效性也會十 分重要,在使用數據進行分析時,不同的時間斷面所 采集的數據對于當前狀態的預測具有不同的意義,距 離現在越近的數據,則相較更早期的數據而言,具有 更重大的意義。 數據 資產 新鮮度 規模 活性 維度粒度 關聯性 數字化的世界 29 在19世紀,一名曾經的海軍軍官馬修方丹莫里(Matthew Fontaine Maury)在擔任圖表儀器廠負責人的期間發現了 大量的航海日志,他從這些記錄著當時日期、風向、海面情 況的日志提取出一副完整的航海導航圖,這些從日志中得到 的數據幫助了千千萬萬的船員繞過難以對付的洋流和惡劣的 天氣,順利地完成航行。 當莫里從那些紛繁冗雜的日志中整理
25、出每一個經緯度所對應 的天氣、日期、洋流信息時,他完成了航海信息的數據化過 程,而當他在自己制作完成的航海圖中為海員們指引出一條 新的安全航線時,數據的價值得到了體現。 數字化的時代使得我們可以更進一步,將那些原本需要人工閱讀 才能體會的數據經過整理交給計算機,借助科技的力量大大提升 數據化和數據分析的效率。為了以更高的效率采集更多的數據, 人們使用傳感器代替了人工讀取溫度濕度,現代的傳感設備可以 自動定期讀取數據并直接存入數據庫,它們的存在極大地提升了 數據資產的增長速度。 位置信息社交信息 健康信息運動信息 大數據產業鏈 30 數據擁有者 自身擁有數據(具有數 據分析能力) 自身擁有數據(
26、不具有 數據分析的能力) 大數據作為業務核心:Google,Amazon,蘋果,Facebook等把利用 數據作為核心價值創造力,一般具有“數據+技術+服務”特征 大數據作為提升業務的輔助手段:銀行、電信等 數據出售:為企業、公共組織和個人提供數據服務,MasterCard、 Twitter等 技術提供者 技術供應商或者數據 分析公司等 數據分析技術、基礎設施、 整體解決方案 數據咨詢和數據分析公司 如Teradata等 服務提供者 挖掘數據價值并直接提供服 務的大數據應用公司 大數據技術,對外提供服務, 例 如 : Flight_caster 以 及 FlyOnTime.us 數據交易平臺
27、本身不擁有數據,提供平臺 支持數據擁有者和使用者之 間的交易 貴陽大數據交易平臺 數多多 大海洋 數據堂 大數據的產業視角 數據服務 基礎支撐 融合應用 資源管理服務硬件平臺:包括網絡、存儲、運算平臺等 數據安全服務 資源管理服務 數據分析與可視化 數據采集和預處理 金融大數據 醫療大數據 媒體大數據農業大數據 交通大數據融媒體 設備供應商數據中心服務商終端 電源、精密空調等配電源、精密空調等配 套設備供應商套設備供應商 網絡設備供應商網絡設備供應商 服務器供應商服務器供應商 光模塊供應商光模塊供應商 動力環境監控動力環境監控 當地政府私人地主 房地產商/產 業園區 金融資本/投 資機構 輔助
28、性生產資料提供者 設 計 方 / 承 建 方 出售/出租 基礎電信運營商基礎電信運營商 第三方零售型數據中第三方零售型數據中 心運營商心運營商 第三方批發型數據中第三方批發型數據中 心運營商心運營商 上游中游下游 云計算企業云計算企業 金融機構金融機構 政府機關政府機關 大型國企、跨國企大型國企、跨國企 業、中小企業等業、中小企業等 互聯網公司互聯網公司 網絡接入服務 轉售數據中心服務 數據中心基礎服務及增 值服務 IaasIaas服務商服務商 IT IT外包服務外包服務 商商/ /系統集系統集 成服務商成服務商 云服務 IT服務 定制化基礎設施服務 ABB 康普 愛默生 施耐德 華為 思科
29、新華三 Finisar 中際旭創 光迅科技 華為 新華三 浪潮 京東 今日頭條 阿里 百度 騰訊 銀行 保險 證券 電子政務 平臺 互聯網企業互聯網企業 數據中心總體產業云圖 數據中心 數據中心(即IDC:Internet Data Centre)是為計算機系統(包括服務器、儲 存和網絡設備等)安全穩定持續運行提供的一個基礎設施。 從數據中心全生命周期角度,數據中心服務商向客戶提供包括數據中心前期的 規劃設計、建筑,以及后期運維等多個服務。 其中,數據中心的運維服務包括服務器托管、數據備份等多項增值服務。 數據中心具有房地產和IT的雙重屬性,其可 從場地到IT軟件分為四層,每上升一層其地 產屬
30、性會更弱、而IT屬性會更強。 數據中心上游產業 數據中心的上游主要包括五大產業,光模塊,電源、精密空調等配 套設備,服務器,網絡設備和動力環境監控。 數據中心的上游各項設施的成本比例: 55.6 16.7 21.1 6.6 數據中心配套設施建設成本比例(%) 電力設備空調設備土地裝修其他 在上游的硬件設備中,電源、精密 空調等配套設備在總體成本支出上 占據了絕大比例; 而作為數據存儲和傳輸核心的服務 器和網絡設備卻在總體成本支出上 僅僅占據了很小的比例。 數據中心中游產業鏈 中游是數據中心建設的主力軍,對上游的資源進行整合,建設出穩定高效的數據中心機 房,并提供服務數據中心服務。 數據中心的主
31、要建設者包括電信運營商,獨立第三方和大型互聯網企業,三者之間存在著 較為復雜的合作關系,在少數場景下亦存在競爭。 各自優勢 電信運營商:對帶寬等資源的壟斷、廣泛分 布的機房,以及深入到縣級以下的體系; 獨立第三方:豐富的建設經驗和運維經驗; 互聯網公司:自身使用,因此可以統一規劃、 設計,并做全部的虛擬化、云化處理。 數據中心產業分析移動互聯網 用戶流量增長是數據量增長的重要因素。用戶流量增長是數據量增長的重要因素。中國網民規模由2011年的約5.1 億人,上升到2018年的約8.3億人。與此同時,移動互聯網的接入流量由 2011年的5.4億GB,增長到2018年的711.1億GB。這些要素給
32、作為互聯網 基礎設施的數據中心帶來巨大紅利。 數據中心產業分析5G、IPv6和物聯網 萬物互聯,數據量將迎來新一輪爆炸性增長。萬物互聯,數據量將迎來新一輪爆炸性增長。 5G網絡的峰值速率、流量密度、連接密度等顯著優于4G,且原生標準 支持企業獨立組網。 IPv6使得每一個元器件都可以擁有獨立的IP地址,兩者使得工業互聯網 和物聯網得以落地?;ヂ摼W的連接作用由過去人與人之間的連接走向萬 物互聯。 數據中心市場規模 20192019年數據中心市場規模已超千億。年數據中心市場規模已超千億。 受益于5G技術的日益成熟與普及、互聯網行業的持續高速發展等,國內 數據中心行業仍將保持30%以上的年復合增長率
33、。 提綱提綱 大數據的產生背景大數據的產生背景 大數據的特征與思維轉變大數據的特征與思維轉變 大數據產業發展大數據產業發展 大數據應用大數據應用 云計算及其產業發展情況云計算及其產業發展情況 云計算應用云計算應用 39 大數據助力奧巴馬競選團隊 在2012年的美國總統競選中,奧巴馬競選陣營的數據挖掘團隊為競 選活動搜集、存儲和分析了大量數據,作為奧巴馬的數據收集、處 理和分析助手,幫助整個競選團隊成功策劃多場活動,從資金籌集 到選民分析提供了完整的支持,促成了奧巴馬的成功連任 使用海量社交網絡統計數據和多數據庫綜合數據構建了龐大的 分析系統 選民分析選民分析:1000多個特征群體,對選民的被說
34、服可能性和影響 力重要性進行排序 模擬:模擬:奧巴馬的數據團隊每晚要實施6.6萬次模擬選舉 宣傳宣傳:廣告投放從新聞到電視劇節目,推廣效率提升14%; RedditReddit社交網站社交網站回答問題 40 我們會在此次競選活動中測量每一件事情,創造一次以數據驅動、完全不同于以前的競選活動。 吉姆梅斯納(奧巴馬競選團隊主管) 41 莎拉杰西卡帕克 (欲望城市) 募款:喬治克魯尼晚宴(西部,40-49,女 性),2012年5月10日在好萊塢舉辦了競選籌資 晚宴。一晚籌款1500萬美元。(西海岸) 急診室的故事 在東海岸選擇了女明星莎 拉杰西卡帕克,成功地復 制了西海岸的籌款效果。 在數據的支持下
35、,競選團隊 幫助奧巴馬籌措到了創紀錄 的10億美元競選資金。 大數據應用:零售 幾種新零售模式 智能零售就是運用互聯網、物聯 網、大數據和人工智能等技術,構 建商品、用戶、支付等零售要素的 數字化,采購、銷售、服務等零售 運營的智能化,以更高的效率、更 好的體驗為用戶提供商品和服務。 蘇寧的“智慧零售”蘇寧的“智慧零售” 新零售是以消費者體驗為中心的數 據驅動的泛零售業態,通過互聯網 的方式重構人、貨、場。新零售將 通過數據和商業邏輯的深度結合, 真正實現消費方式逆向牽引生產變 革 阿里巴巴的“新零售”阿里巴巴的“新零售” 零售革命改變的不是零售,而是零 售的基礎設施。零售的基礎設施將 變得極
36、其可塑化、智能化和協同 化,推動“無界零售”時代的到 來,實現成本、效率、體驗的升 級。 京東的“無界零售”京東的“無界零售” 蘇寧的核心優勢在于多元化的銷售渠 道,“兩大、一小、多?!钡牧闶圩?群可以滿足各線城市消費者的多元化 體驗訴求。而其對零售的闡釋也是圍 繞現有線上和線下業務展開,從而搭 建協同的數字化和智能化的零售體 系??梢哉f蘇寧的智慧零售是自上而 下,由里及外的一體化改造。 以技術為依托提供全面的智慧服務以技術為依托提供全面的智慧服務 阿里的核心優勢在于掌握大量消費人 群數據和先進的技術,通過數據分析 掌握消費者需求后,引導商業模式創 新,在對傳統零售模式改造的基礎 上,給了線下
37、渠道以全新的發展方 式,線上線下的界限變得不再明顯。 最終滿足消費者多元化體驗、提升零 售效率是阿里定義下的“新零售”的 主要任務。 以用戶為中心數據驅動的泛零售以用戶為中心數據驅動的泛零售 京東的核心優勢在于自建的物流網 絡,所以其對零售的闡釋更多是圍 繞產業鏈后端對物流、供應鏈的改 造和升級,去滿足前端消費者多 元、無界的消費體驗。同時將金 融、物流、技術等能力作為零售的 基礎設施賦予合作的品牌商家,實 現行業的成本、效率、體驗的升 級。 零售基礎設施的升級實現無界零售零售基礎設施的升級實現無界零售 大數據應用案例 43 大數據廣泛應用的背景是互聯網的全面占領人們的生活,互聯網企業通過在線
38、 廣告的方式獲取大量的利潤,數據分析的引入使得在線廣告相對于傳統的廣告 而言可以進行更加精細的投放,而對廣告效果數據分析的引入,則可以更好地 指導廣告投放過程。 基于多年的數據積累和不斷優化的技術,亞馬遜的 個性化推薦技術聞名業界。同時,亞馬遜所推出社 交新功能還能還允許其用戶可將亞馬遜帳戶與 Facebook帳戶關聯起來,亞馬遜將根據用戶使用 Facebook“Like”( 贊 一 個 ) 功 能 的 情 形 和 在 Facebook網站上的其它活動記錄來推薦商品。 亞馬遜預測發貨,客戶還沒有下單,貨物已經發出。 在線廣告的個性化推薦 用戶在亞馬遜上的 Facebook頁 大數據應用案例 4
39、4 塔吉特(Target)百貨的相關關系分析 2002年,安德魯波爾開始為塔吉特百貨擔任數據統計員。銷售部的兩名同 事找到他,問了一個古怪的問題:“如果我們想在顧客不知情的前提下推測 出一名女顧客懷孕了,能做到嗎?”。 塔吉特設有寶寶派對登記處(孩子出生前舉辦的特殊派對),波爾以此為 起點,觀察孕婦在預產期內的購物習慣如何轉變。他反復測試和分析數據, 很快一些有用的計算公式開始出現。波爾發現,妊娠中期剛開始,女性通常 會大量購買無香型沐浴露,另一位分析員發現,在懷孕最初的20周,女顧客 經常會大筆購買保健品,而當一位女士突然開始大量購入無添加肥皂、洗手 液和毛巾時,意味著她可能接近了預產期。
40、波爾通過累積的數據,推算出當25種商品部分或集中出現時,就可以為一 位顧客貼上“可能懷孕”的標簽,更重要的是,完全能夠推斷她的預產期, 這意味著塔吉特可以在孕期的不同階段送出特別設計的廣告單。波爾在塔吉 特百貨的全美國會員數據庫中找到上萬名有可能懷孕的女顧客。 在塔吉特的數據庫中,每一個用戶都 有唯一的ID號碼,用戶與商店發生的 每一個交互行為都通過ID號進行了詳 細的記錄。在海量數據處理變得越來 越便利的現在,零售企業將能夠收集 更多的數據資產,并使用數據資產完 成更多的分析。 智能醫療 1.IBM,安大略理工大學:早產兒心跳檢測項目 在項目中,心率、呼吸、體溫、血壓和血氧含量等16組 數據
41、被用于檢測早產兒的身體狀況,這些數據的采集頻度 達到了每秒1260次之多,在這個系統的幫助下,醫生可以 通過對早產兒的身體細微變化預判他們可能出現的感染癥 狀,將診療預防提前24小時。 智能醫療 46 2. IBM,加州大學洛杉磯分校里根科學中心:創傷 性腦損傷治療 IBM的科學家在與美國加州大學洛杉磯分校里根醫學中心的 醫生們就創傷性腦損傷治療的合作中,通過分析患者巨大 的數據流來預測這種導致認知能力損害甚至死亡的腦腫 脹。通過跟蹤醫生可以實時采集到的患者呼吸率數據和心 率模式,可以識別并預測患者未來數小時的各種生理跡 象。 里根醫學中心的醫生正在使用 大數據平臺進行腦損傷診斷 大數據應用案
42、例智慧醫療 華為云與穿越醫療合作,搭建“血液云”華為云與穿越醫療合作,搭建“血液云” 通過醫療的安全監管平臺,對每一袋血從血管到血管的全過 程做安全監控;通過大數據驅動的血液云可實現城市間的血液調 劑,因為不同城市之間的血液分布是不一樣的;通過互聯網建立 捐血者的線上連接,以及智慧捐血站良好的線下體驗,讓人們特 別是年輕人更理性看待獻血,讓血液的獲取更加有序。 華為云與與國內最大第三方醫學檢驗機構金域醫學合作華為云與與國內最大第三方醫學檢驗機構金域醫學合作 在宮頸癌早期篩查項目中,華為云以強大算力和AI能力支 持,將單次篩查所需工作時間減少超過60%,使得相同的工作時 間與強度之下更多的標本可
43、以被處理,從而以大幅提升宮頸癌篩 查的效率。 大數據應用案例疫情防控 百度地圖持續上線大數據新技術、新產品,為百度地圖持續上線大數據新技術、新產品,為 科學防疫提供服務和支持??茖W防疫提供服務和支持。 百度地圖實時路況平臺一方面支持實時查看全 國高速擁堵趨勢變化和擁堵路段排行,另一方 面還提供熱門交通樞紐的人流指數分析和周邊 擁堵情況,共同為返程期間公眾平安出行、政 府及交通運輸單位提供大數據決策支持。 百度地圖遷徙大數據平臺,用戶可以直觀明了 地掌握全國熱門路線、熱門目的地、熱門出發 地。 百度地圖的熱力圖圖層,用戶可以查看到實時 的人口流量密度,以此來決定出行路線,避開 商圈、交通樞紐等人
44、流密集場所。 保險行業大數據應用案例 理賠欺詐預防 費埃哲(FICO)公司在2013年的報告中指出,在面向保險公司的調查中,約有35%的受訪者認為當前的保險欺詐 比例達到了5-10%,有31%的受訪者認為這些保險欺詐給公司帶來的損失達到了營收的20%,而且保險欺詐的比例 還在不斷增長,已經逐漸成為威脅保險公司利潤率的一個關鍵因素。 案例:使用大數據分析技術排除保險欺詐 加拿大保險局發現對于汽車保險欺詐的調查往往會耗費數年時間,為此他們的調查部門希望能夠借助大數據 技術加速保險欺詐調查的過程。 加拿大保險局和IBM公司合作,推出了一項概念驗證計劃(Proof of Concept,POC),這項
45、計劃在安大略 省率先推行,在這項計劃中,他們利用歷史數據定義了關鍵的保險欺詐標志物,用以輔助保險調查人員進行 欺詐預防。同時,該計劃中還對客戶關系、標志物關聯、欺詐風險等關鍵要素進行了可視化展示,進一步提 升了調查人員的工作效率。在該計劃中,共分析了六年時間內的230000個理賠請求,最終發現涉及金額約 為4100萬加元的2000多個理賠請求存在欺詐嫌疑,IBM和IBC估計,該計劃最終能夠為安大略省的汽車保險 行業每年節省約2億加元。 在承保環節,保險公司可以使用大數據解決方案快速檢索申請者的海量信息數據,以排除可能會發生欺 詐行為的投??蛻?。 在保險公司接收到用戶的理賠請求后,可以利用社交網
46、絡和公開數據對對用戶的理賠請求核查,不僅能 夠減少保險欺詐成功的概率,也能夠減少保險理賠請求中假陽性的發生,從而提升客戶滿意度。 大數據應用案例智慧教育 騰訊云智慧幼兒園騰訊云智慧幼兒園 在教師的教學環節中,騰訊云作為大數據技術支撐,為教師 實現課程開發和創新助力。當前,運用大數據的能力優勢, 打造了智慧教室、大數據評估系統,并借力云資源實現優質 教育資源的引入,讓個性化、智能化教學,教育資源公平化 和因材施教的理念落地到教學過程中。 附屬幼兒園接入智慧幼兒園系統之后,保障安全的人臉識別 閘機、電子班牌和數據管理平臺成體系運作,實現了信息數 據化的高效以及智能化管理。 運營過程中,日常管理數據
47、與政府管理系統(教育行政、教 育督導)進行對接,實現數據共享,使管理部門能夠實時了 解幼兒園動態。平臺根據幼兒園數據情況,可以設定公開數 據的權限,社會人士和家長也能從這個平臺上了解幼兒園工 作開展情況,從而解決信息不對稱的問題,實現監督并行、 管理透明的良好工作閉環。 教育應用 乂學教育-松鼠AI 成立于2014 年,提供教師與AI智適應學習系統協作教學的全套標準體系及素 質系統,由人工智能自適應系統主導、真人輔助的雙師模式,完成“ 教學評測”的教學 全流程。包含小初高全學科課程內容。 松鼠AI是線上線下打通的商業模式。采用70%AI系統授課30%輔導老師輔助的混合模式,學 生可以在家在線學
48、習,也可以到線下學習中心學習接受AI教學系統和老師混合授課。 三年時間已在全國20多個省400多 個城市開設了近2000家學習中 心。 累計注冊學生數近200萬,公司已 累計融資近10億人民幣,估值11 億美金。 擁有MCM能力值訓練、錯因重構 知識地圖、超納米級知識點拆分、 MIBA等多個全球首創AI技術。 大數據應用案例智慧物流 順豐數據燈塔順豐數據燈塔 融合了順豐內外部的海量數據(30萬+收派員、5億+個 人用戶、150萬+企業客戶、300萬+樓盤/社區信息、10 億+電商數據以及10億+社交網絡等海量數據、覆蓋全 國3000個城市和地區),主要功能有實時快遞監控、 個性化預警、智慧云倉
49、、洞察同行、洞察消費者、洞察 供應鏈等。 智慧物流:智慧物流:提供快遞攬收、在途、派送、簽收全流程狀 態,幫助快遞實時跟蹤、監控,及時發現問題快件并處 理。 智慧商業:智慧商業:融合順豐精準全面的運單數據和外部地址信 息,通過挖掘順豐海量的“最后一公里”地址數據,利 用大數據技術基于地理位置的商業環境進行分析,結合 小區的屬性特征,讓商家更清楚掌握消費者的購買偏好 及人群畫像信息,提供完整的商業落地方案,協助商家 更好地進行O2O運營、精準營銷,定位目標客戶。 大數據應用案例智慧物流 菜鳥物流數據平臺菜鳥物流數據平臺 菜鳥網絡的物流數據平臺,會匯集商家、物 流公司以及來自于第三方的數據資源,對阿 里平臺上海量的商品、交易和用戶等信息, 以及社會物流網絡信息的深度挖掘,實現物 流過程的數字化、可視化,對全國各大物流 公司進行“中轉站-線路-網點”整個包裹流轉 鏈路的運輸預測和運輸預警,讓物流公司實 時掌握整張物流網絡每個環節的“未來包裹 量預測”和“繁忙度實況預警”; 同時也讓商家能夠了解物流公司的狀況,選 擇合適的物流公司進行商品配送,實現智選 物流的目標。 消費者的物流數據。消費者的物流數據。消費者收貨地址、服務選擇、對物流