和鯨科技:數據競賽白皮書(62頁).pdf

編號:14062 PDF 62頁 7.36MB 下載積分:VIP專享
下載報告請您先登錄!

和鯨科技:數據競賽白皮書(62頁).pdf

1、of 數據科學協同平臺 序 第一章 數據競賽,數字化創新的新模式 一、競賽規模與資源投入趨勢 1. 獎金投入意愿攀升,參與規模穩增 2. 數據紅利可期,數據投入姿態積極 二、賽題應用場景與技術類型分布 1. 應用場景不斷擴散,標桿行業優勢初顯 2. 覆蓋主流 AI 技術,計算機視覺熱度延續 三、全球數據競賽發展歷程 1. 以工業應用為目標,數據競賽模式誕生 2. 引領全球化前沿探索,國際頂會先鋒探路 3. 平臺化模式全面開啟,Kaggle 加速資源匯聚 四、數據競賽外生環境趨勢 1. 商業數字化趨勢漸強,有賴技術創新落地 2. AI 上升為國家戰略,推動數據賦能實體經濟 3. 云計算技術日益成

2、熟,提供基礎設施保障 4. 青睞背后充滿審慎,資本看重 AI 落地價值 5. 媒體普及大眾化認知,競賽收獲正面輿評 6. 教育投入與日俱增,數據人才能力躍升 第二章 數據競賽,數據智能落地的練兵場 一、競賽驅動的數據科學創新 1. 數字化轉型成本提升,暗藏眾多風險 2. 競賽低耗高效可持續,創新探索敏捷化 二、對競賽的理性評價與思考 三、選手眼中的競賽價值 四、競賽對四大辦賽主體的賦能實效 1. 引領企業進行技術落地場景的創新探索 2. 促進高校加強學科建設與人才培養 3. 推動科研機構加速產研融合與技術發展 4. 助力政府實踐產業落地和建設數據創新生態 附錄 CONTENTS 03 04 0

3、8 08 09 10 10 15 17 17 18 19 23 23 24 25 26 28 29 32 33 34 35 38 39 42 45 47 49 51 53 數據競賽白皮書聚焦三大核心看點,力圖全景式呈現數據競賽驅動下的數字化創新生態。 在白皮書上篇,將著眼于數據競賽的發展歷程與現狀,對其核心價值展開深刻剖析;在白皮書 下篇,數據競賽的科學管理方法論和最佳實踐將得到深度分享。 高亮看點 關注數據競賽白皮書下篇辦好一場競賽的實操手冊,看點三深度內容盡在掌握。 看點一: 1000+ 場數據競賽,催生數據智能時代全球性政、企、學、研、 資各界聯動新常態 2014 年至今,全球范圍內的各

4、類數據競賽總量已突破 1000 余場。其中,僅中國市場就已發 布共計逾 400 場數據競賽,年均增長率高達 108.8%。236 家企業、政務部門、高校和科研 機構作為賽事主辦方參與其中;吸引約36萬支團隊、 120萬人次參賽;獎金規模合計高達2.8 億元人民幣,賽題覆蓋 33 個行業應用場景; 1997 年,享譽全球的國際頂級學術會議 KDD 推出 KDD Cup,開啟了數據競賽的新模式, 20 余年以來的賽題設計始終帶有鮮明的工業應用色彩。ICCV、NeurlPS、ISBI、Euro CSS、 ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(A

5、ctivityNet)、IWCS、 ECCV 等國際頂尖學術會議在全球化浪潮下也紛紛開始牽頭組織數據競賽。 看點二: 15 個案例特寫,看懂數據競賽為何成為數字化創新的有效手段 以賽題承載應用場景,在緊湊的競賽周期內高效整合數據、算法、算力、人才等要素,可敏 捷驗證各類 AI 在真實商業場景中的落地方向和實效; 85% 的數據人才高度認同競賽對技術實踐能力的培養作用,競賽成為打破高校學科建設與人 才培養瓶頸的有效手段; 競賽推進前沿科研探索落地,通過跨學科協作促進 AI 在不同領域價值釋放; 競賽成為數字化創新要素和匯集產、學、研、政各界資源的樞紐 ,助力數據創新生態建設和 產業落地。 看點三

6、: 100+ 場專業賽事服務經驗,一流競賽平臺開源數據競賽管理 方法論與業界最佳實踐 面向千余名參賽選手的調研結果顯示,獎金并非競賽核心訴求,從專業性賽題、科學性評審, 到協作式工具、精細化運營,組織一場優質的數據競賽頗有挑戰; 競賽全生命周期都面臨著來自參賽選手和主辦方的雙重審視,既要能夠通過打造良好的參賽 體驗高度激發數據科學人才的能動性和生產力,又要通過專業的數據科學服務能力和精細的 運營流程充分滿足賽事主辦方貫穿賽事全程的多元訴求; 保障賽事功能,開創數據科學研發全新協作模式數據科學協作工具成為數據時代最重要 的基礎設施之一。 02 數據競賽,數字化創新的新模式 數據競賽白皮書下篇 辦

7、好一場競賽的實操手冊 數據競賽白皮書上篇 1000 場競賽的深度分析 數字科技正逐漸滲透到經濟、商業、社會生活方式等方方面面,人們對于數據智能時代的 來臨充滿了期待。然而,從現階段的發展來看,我們距離真正的大數據時代仍有距離,各 行各業的數字化轉型進程未能如期落地。數據的力量究竟該如何激發?帶著這樣的疑惑, 我們把視角對準了數據競賽這一載體,以期為行業提供啟發。通過全面的調研、分析,我 們得到了尋找創新路徑和探索最佳實踐的總結,形成這份數據競賽白皮書分享給大家。 全球數據競賽市場已經歷了 20 余年的探索,其發展起點可追溯至 1997 年由國際頂級學術 會議 KDD(Conference on

8、 Knowledge Discovery and Data Mining,知識發現和數據挖 掘會議)推出的 KDD Cup。此后,一系列國際頂尖學術會議也陸續牽頭組織數據競賽。 國際頂會數據競賽往往會積極兼顧市場應用的需求,通過與企業、政府機構合作,聚集當 下技術與數據應用中的難點尋求解決思路,不斷縮短科研成果與落地應用之間的距離。創 立于 2010 年的 Kaggle 作為目前全球最大的數據科學技術分享社區,更是為數據競賽的平 臺化發展奠定了模式化基礎,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互聯 網時代誕生的獨角獸, 亦不乏Walmart、 Airbus、

9、 Genentech等聲名日久的傳統行業領頭羊。 放眼中國市場,數據競賽自 2014 年萌芽以來,數量每年以翻倍之勢增加,主導者不乏權 威的科研機構與高校,亦有來自各行各業的領軍企業。身擔城市管理與民生重任的政務機 構也在“大眾創業、萬眾創新”的政策驅動下,開始意識到數據的力量,牽頭組織了多場 大型數據競賽。 數據競賽絕不僅僅只是 “主辦方發布賽題、 傳播品牌美譽, 參賽者參與開發、 收獲豐厚獎金” 的公關活動。對雙方而言,數據競賽已經成為了數字化轉型的“云端實驗室”。賽事主辦 方緊跟數據智能的發展趨勢,通過挖掘數據價值的場景和樹立“數據 + 算力 + 人才 + 算法” 的價值閉環,積累數據科

10、學研發的核心能力;參賽選手能夠積累如何在真實業務場景中應 用先進技術的實際經驗,在與眾多高手的交流切磋中不斷成長。 基于這一趨勢,在大數據系統軟件國家工程實驗室的指導下,和鯨科技“Heywhale. com”攜旗下中國領先的第三方數據競賽平臺“和鯨社區(即 K)”,聯合 AWS,共同發布數據競賽白皮書,分析全球市場數據競賽發展趨勢,提出對數據競賽 推動前沿技術落地的創新價值思考,并在業界開源優質數據競賽運營方法論與最佳實踐。 序 第一章 數據競賽,數字化創新的新模式 一、競賽規模與資源投入趨勢 二、賽題應用場景與技術類型分布 三、全球數據競賽發展歷程 四、數據競賽外生環境趨勢 圖 1-1 數據

11、競賽生態版圖 數據競賽,數字化創新的新模式 05 數據競賽是指在以真實業務問題為導向,聚合廣泛的、跨學科的 數據人才的參與,利用數據研發算法模型、探索解決方案的新型 研發模式。 2014 年至今,全球范圍內由各行業企業、頂級學術會議和第三 方數據科學平臺發起的各類數據競賽總量已突破 1000 余場。其 中,僅中國市場就已通過 12 個數據競賽平臺發布共計逾 400 場 數據競賽,占比近半,且年均增長率高達 108.8%。236 家企業、 政務部門、高校和科研機構作為賽事主辦方參與其中 ;吸引約 36 萬支團隊、120 萬人次參賽;獎金規模合計高達 2.8 億元人民 幣,賽題覆蓋金融、交通出行、

12、安防、航空天文和生物科技等 33 個應用場景。 利用數據競賽探索數字化創新與前沿技術的落地應用方向正在成 為數據科學生態必不可缺的一環。通過對這 400 場數據競賽的深 入分析,我們試圖從更全面、更深入的角度理解中國市場的數據 競賽生態。 數據來源:和鯨科技()制作。引用請注明出處。 圖 1-2 數據競賽賽題數量與參賽團隊變化趨勢 在過去數年間,數據競賽賽題數量增勢日漸強勁,表明利用數據 進行產業賦能的創新探索需求不斷增加,越來越多的組織機構以 擁抱人工智能的開放心態積極探索數字化轉型的更多可能。 在被稱為大數據元年的 2015 年,先進技術帶來的經濟效應規模 化顯現,在技術賦能產業的進程中,

13、“由社會成果廣泛參與、公 開透明、自下而上、分權決策”的社會創新作為全新組織范式日 漸走進人們的視野,數據競賽作為其重要表現形式之一,開始作 為探索潛在應用場景、甚至解決實際問題的有效手段被接受。 與此同時,政府及事業單位需要依賴技術進行數據化驅動的社會 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 0 1,000 10,000 0 1,000 10,000 100,000 0 100,000 1,000,000 10,000,000 0 30 治理與城市優化。進入 2017、2018 年,在越來越多企業投入數 據競賽的同時,由高校、科研機構與政府單位主導的數據競賽數 最也保持著較強

14、的漲幅、從科研探索,到商業場景應用,再到社 會治理,數據競賽賽題內容可謂百花齊放。 而參賽人數的指數級增長也釋放出兩方面的信號: 其一,不僅限 于計算機和數學背景,越來越多的不同背景的人才開始接觸數據 科學;其二,伴隨著技術的革新,產業對于數據科學應用價值的 認知和興趣不斷強化。 06 數據競賽,數字化創新的新模式 通過這項賽事的成功舉辦,南京市人民政府向外界清晰地傳達:南京市人民政府對于數據科學及人工智能產業的支持力度 是空前的,通過提供堅實有力的扶持政策和對接優質資本,南京有能力、有魄力、有信心把握人工智能時代的發展趨勢, 以更懂科技企業的方式聚集數據科學人才、提供配套設施服務、助推數據科

15、學全面發展。 案例特寫:2018 全球(南京)人工智能應用大賽社會各界全面聯動的大型賽事 賽事主辦方:南京市人民政府 作為國內頂級規模的數據科學賽事,2018 全球(南京)人工智能應用大賽推動了產、政、學、研各界的全面聯合,因 其社會價值之高、調動資源之多、影響范圍之廣引發了各界的高度關注。南京市人民政府聯合 2 家科研機構、3 所高校、 15 個企業共同發布了覆蓋“智能制造”、“智能駕駛”、“智能生活”、“智能醫療”、“智能城市”五大產業應用 領域的 20 道賽題,設立 600 萬元獎金池及 20 億元人工智能產業風險投資基金,吸引了近 3000 名數據科學人才的參與。 掃描上方二維碼 了解

16、更多賽事詳情 2018 年 5-9 月,和鯨承辦由南京市政府主導的 2018 全球(南京)人工智能應用大賽,聯合產、政、學、研、資各界機構 組織針對五大產業應用領域方向共計發布 20 道并行賽題,所有賽題從解決產業實際困難出發,充分體現 AI 技術在各行各 業的深度應用賦能價值,一批提高生產效率甚至改變商業模式的解決方案,從本次大賽中涌現。 五大領域 20 道賽題,覆蓋社會生產重要領域 數據競賽,數字化創新的新模式 07 1M 2M 3M 4M 5M 1K02K3K4K5K6K7K8K9K10K 物流 氣象 高校服務 通信 能源 航空天文 旅游 農業 地質水利 游戲 農林養殖業 客服生物科技

17、食品安全 軍工業 法律 海洋 工具 教育 體育 交通出行 金融 商業開放應用 文娛傳媒 人工智能 電子商務 工業制造業 新零售 醫療健康 人文服務及社會治理 物流 氣象 高校服務 網絡安全 通信 能源 航空天文 旅游 農業 地質水利 游戲 農林養殖業 客服 生物科技 食品安全 法律 軍工業 安防 海洋 體育 教育 工具 5M 10M 15M 20M 25M 30M 35M 40M 45M 50M 55M 60M 5K010K15K20K25K30K35K40K45K50K 交通出行 電子商務 工業制造業 醫療健康 安防 人文服務及社會治理 網絡安全 新零售 金融 商業開放應用 文娛傳媒 人工智

18、能 圖 1-3 各行業賽題的獎金投入與參與規模 一、競賽規模與資源投入趨勢 數據競賽的獎金水平和參賽規模從側面反應了各行各業的數據科 學投入力度和各類技術領域內的人才結構。自 2014 年以來,無 論是參賽人數還是總獎金池規模都呈現出較為顯著著上漲趨勢, 而人均獎金也呈同步上升態勢。由此可見各行各業在數據競賽中 的投入熱情和力度不斷高漲。 具體來說,除了具有跨行業應用價值的賽題外,賽題場景的行業 分布與獎金、參賽規模主要呈現如下趨勢: 交通出行、工業制造、醫療健康是目前數據競賽中獎金最豐厚、 規模最宏大的三個領域,可見其對于數字化創新價值的重視和 期待。 1. 獎金投入意愿攀升,參與規模穩增

19、獎金支付能力最高、數據科學人才熱度最高的行業 交通出行; 獎金支付能力較高、數據科學人才熱度一般的行業 工業制造、醫療健康; 獎金支付能力較低、數據科學人才熱度較高的行業 金融、文娛傳媒、電子商務; 獎金支付能力較低、數據科學人才熱度較低的行業 氣象、能源、高校服務。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 電子商務、社會公共服務、文娛傳媒等賽題場景因與大眾個人 生活息息相關,故而也往往具有較大的參賽規模。 安防、能源、氣象等賽題場景因具有一定的知識門檻,因此存 在獎金豐厚但參賽者寥寥的現象。 同時,不同技術類型賽題的難易程度和發展速度也與獎金水平正 向相關:越高的獎金意味著技

20、術難度越大,豐厚的激勵有望推動 尖端人才投身前沿問題的解決。其中,計算機視覺類賽題的獎金 水平一枝獨秀,預計未來仍會有大量相關賽題涌現。而結構化數 據挖掘類賽題則具有最廣泛的受眾面和最低的參與門檻,參賽規 模龐大。 08 數據競賽,數字化創新的新模式 2. 數據紅利可期,數據投入姿態積極 數據競賽的創新價值均以數據為基礎,除了以豐厚的獎金投入來 吸引優質人才的加入,越來越多的主辦方也在數據安全與法規限 定的范疇內不斷加大競賽數據的投入力度,為創新提供更充足的 養料。 百度作為積極投身數據競賽的先鋒,已基于百度知道的真實問答 文檔建設了迄今為止規模最大的中文公開領域閱讀理解數據集 DuReade

21、r,并完成了對總量類型、問答實體和觀點等信息維度 的標注,彌補了現有主流問答語料庫對于觀點類問題覆蓋不足的 缺陷,首批發布的閱讀理解數據集包含 20 萬個問題、100 萬份文 檔及 42 萬個人工撰寫的優質答案,并提供開源基線系統,從而 為各行各業在自然語言處理領域的創新探索奠定了堅實基礎。 由中科院打造的 CASIA-WebFace 數據集包含了 10575 名個人的 494414 張圖像,是訓練人臉識別模型的重要素材。 此外,在由百度主導的“智能問答”和“綜藝節目精彩片段預 測”兩場數據競賽中,百度聯合汽車大師和愛奇藝分別提供了汽 車大師平臺上的 11 萬條真實問答數據、以及總長約 120

22、0 小時的 1470 條愛奇藝電視綜藝視頻。這些數據對最終優質成果的誕生發 揮了至關重要的作用。 攜程將數據競賽作為推動內外協同創新、解決實際業務問題的重 要手段,其發布的賽題幾乎覆蓋了自身業務的核心內容,包括酒 店銷量概率預測、客戶轉化概率預測、航班延誤預測、渠道銷售 能力預測等諸多方面。為了收獲具備工業應用潛力的競賽成果, 在經過嚴格脫敏處理和采取充分的數據安全保障措施后,攜程為 競賽導入了海量真實業務數據,其信息涵蓋酒店基礎數據、歷史 訂單數據、價格波動數據、競品排名數據、歷史航班動態起降數 據及航班延誤影響因素相關數據等。 科研機構在日常研究工作中積累了大量數據,通過數據競賽的開 放式

23、創新環境閉合的數據庫在一定條件下進行開源,也無疑能夠 進一步促進這些數據的價值釋放。率先將醫療大數據 Datathon 模式引進國內的解放軍總醫院,在 2018 年的 Datathon 中就曾發 布并應用了 2015-2017 年間在解放軍總醫院急診科就診數據庫, 以其作為 Datathon 競賽的基礎資源,通過跨學科、跨領域的交 叉合作,真正推動了醫療大數據應用從理念到落地的探索。 政務數據廣泛覆蓋自然信息、城市建設、城市管理監察、服務與 民生消費等豐富的維度,是極其重要的大數據資產,開拓政務數 據的創新應用場景也成為了近年來各級政務部門的重要任務。越 來越多的政務部門通過數據競賽開源數據紅

24、利,探索創新機遇。 舉例來說,在由廣西壯族自治區人民政府發起的全球數據智能大 賽 (2019) 中, 2015-2018年間廣西 81 縣十余個維度的氣象和早、 晚稻產量數據,及降雨、溫度、光照、溫差等氣象數據被用以構 建智能氣象預測系統和精準預測水稻產量。 數據競賽,數字化創新的新模式 09 圖 1-4 數據競賽賽題所涉行業分布 二、賽題應用場景與技術類型分布 1. 應用場景不斷擴散,標桿行業優勢初顯 數據競賽自誕生以來,始終以數據科學落地場景的探索為主要優 勢特色,并對數據科學在不同場景下的應用能力和價值通過賽題 進行驗證和迭代。從 2014 年至今中國市場 400 場數據競賽的賽 數據來

25、源:和鯨科技()經調研統計得出。引用請注明出處。 題可以看出,除了如推理問答、人臉識別等具有跨行業場景應用 能力的賽題外,交通出行、金融、文娛傳媒和工業制造是賽題場 景涉及最多的四大行業。 不同的應用場景之間存在一定的價值互通,而數據智能又具有普 適性與遷移性,因此來自不同領域的數據競賽主辦方在賽題場景 的選擇上表現出了豐富的多樣性,不僅僅局限于自己的業務領域, 也會高度關注數據在其它場景下的應用價值。這不僅僅能以更廣 闊的視野探索創新機會,還可以幫助賽事主辦方在數據安全、自 有業務數字化準備不足等問題的限制下依然能夠通過數據競賽感 受算力、算法和數據的協同帶來的價值。 10 數據競賽,數字化

26、創新的新模式 圖 1-5 賽事主辦方行業類別與賽題場景行業類別的配對關系 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 數據競賽,數字化創新的新模式 11 300,0004,868 1,850,000565 840,0001,507 210,000485 表 1-1 金融場景的數據競賽典型賽題 金融行業是數字化創新的主力 自 2016 年 Fintech(金融科技)的概念面世以來,金融行業在技 術創新方面的投入不斷增強,以數據競賽為主要手段的開放式創 新更成為了金融行業的重要戰略選擇。金融行業在 2017、2018 兩年連續成為賽事密度最高的領域,賽題數量占比達 66.7%,是 技術

27、創新的主力。量化投資和風險評估是最為常見的賽題場景, 如根據海量股票交易數據生成量化投產策略,并在模擬盤上進行 三個月的策略驗證;同時,通過聲紋、人臉等生物特征和個人信 息的驗證來加強金融風控力度也是較為常見的賽題應用場景。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 交通出行領域是應用場景不斷成熟的典型代表 2015 年,交通出行場景首次出現在數據競賽的賽題中“游族 杯”上海開放數據創新應用大賽以城市交通為主題,運用交通管 理部門和相關企業提供的開放數據,以產品(原型)為比賽對象, 結合線上線下活動,面向全國征集改善城市交通和市民出行的數 據可視化應用和解決方案。 此后,該領域在

28、數據競賽中的投入不斷加強,賽題數目從 2015、 2016 年的每年各 3 道上升至 2017 年的 7 道,至 2018 年更是達 到了 23 道之多。而賽題內容也在不斷具象從最初征集開放 性產品方案,到后來進行路段擁堵情況預測、自動駕駛障礙物檢 測等,數據的應用方向越來越清晰、越來越聚焦。至 2017 年,7 道涉及不同具體場景的算法類賽題均誕生了優質的模型成果,完 成了數據及算法應用成果的驗證。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 UAI UAI UAI UAI UAI UAI UAI UAI UAI UAI 圖 1-6 交通出行領域數據競賽賽題關鍵詞 12 數據競賽

29、,數字化創新的新模式 表 1-3 文娛傳媒場景的數據競賽典型賽題 電信數據是跨界應用的典范 絕大多數賽事主辦方的賽題均集中在其所在行業領域的產業鏈上, 以電信行業為代表的賽事主辦方設立了豐富的跨界賽題,如利用 電信用戶地理位置信息預測其前往某地旅游的概率,或利用電信 用戶通信側消費信息和手機使用行為信息預測其更換手機的概率。 這與其電信業務存量市場已漸趨飽和的行業特點相關,也傳遞出 了趨勢性的信號:通過數據競賽探索既有數據在跨界領域的應用, 不僅能夠建立起“算力 + 數據 + 算法 + 場景”的標桿案例,而且 能夠探索多產業間數據協同的增量價值。 數據來源:和鯨科技()經調研統計得出。引用請注

30、明出處。 文娛傳媒類場景是面向個人用戶應用 AI 技術的直接端口 自 2015 年以來,文娛傳媒領域的數據競賽賽題呈現逐年遞增的 態勢,行為預測、營銷內容創作、輿情分析成為了該領域最為常 見的賽題場景。因賽題內容與個人消費者具有較強的相關度,該 領域的競賽往往能夠引起廣泛關注和積極參與,成為了面向個人 用戶應用數據智能的直接端口。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 工業制造業在政策與需求的驅動下積極組織競賽 工業制造領域的數據競賽從 2017 年開始進入爆發期,以中國 制造 2025為代表的人工智能國家發展戰略是引導工業制造領域 賽題數量劇增的重要原因之一。在宏觀政策的指

31、引下,政務部門 率先成為了該領域數據競賽的主要主辦方。廣東省人民政府牽頭 的工業智造創新大賽便是典型代表,要求參賽選手開發計算機視 覺算法自動識別布匹疵點,以及對布料剪裁進行最優規劃。 表 1-2 電信行業的數據競賽典型賽題 2,200,0002,038 1,000,0002,546 100,000768 40,000378 1,000,0001,071 1,000,0008,848 380,0005,475 230,0001,485 數據競賽,數字化創新的新模式 13 表 1-5 新零售場景的數據競賽典型賽題 表 1-4 工業制造場景的數據競賽典型賽題 數據來源:和鯨科技()經調研統計得出。

32、引用請注明出處。 技術發展與消費升級推進新零售領域數據競賽的爆發 新零售行業的本質在于技術發展與消費升級帶來的供需多元化、 智能化以及精準化,商品識別、精準營銷、供應鏈管理是該領域 主要的賽題場景。新零售領域的競賽主辦方行業輻射范圍較廣, 交通出行、金融、通信行業的機構組織均參與過新零售場景賽題 的出具。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 探索底層創新技術的賽題具有可復制價值 此外,不同產業的某些場景之間存在一定的價值互通與共生性, 以具有跨行業泛化應用能力的底層創新技術作為賽題方向,能夠 加速關聯領域的數字化創新探索。例如對于圖像的目標識別、對 于文本情感的分類都具有跨

33、行業領域的泛化應用價值。 1,000,0001,809 222,0254,504 550,0002,529 1,000,000906 1,340,0002,950 300,0002,100 170,000411 14 數據競賽,數字化創新的新模式 2. 覆蓋主流 AI 技術,計算機視覺熱度延續 數據競賽賽題的技術類型主要包括結構化數據挖掘、計算機視覺、 自然語言處理、語音技術四大類別。不同產業在不同發展階段對 不同類別的技術有所側重, 但就現階段來看, 文娛傳媒、 醫療健康、 智慧校園等行業因其對技術的開放程度較高,技術變現方向相對 清晰,從而對各種技術類型的賽題均有所涉及。 結構化數據挖掘方

34、面的賽題分布最為廣泛。對于賽事主辦方而言, 在場景應用尚未開發成熟之前,通過結構化數據挖掘類賽題加強 對如何進行數據治理、如何打破數據價值應用壁壘、如何喚醒沉 睡數據的理解是其重要意義所在。 計算機視覺在未來較長一段時間內都將持續成為熱門的應用焦點。 從學術科研的角度來看,2013-2016 年間,計算機視覺相關論文 發表數量每年保持著 24% 的高速增長,并在 2016 年人工智能領 域的全量發表論文中占比高達 49%。而從數據競賽角度來看,憑 借著強大的跨行業應用能力,全國 400 場競賽賽題中,計算機視 覺方面的賽題數量占比高達 30%。 數據來源:和鯨科技()經調研統計得出。引用請注明

35、出處。 圖 1-7 數據競賽賽題所涉技術類型分布 數據競賽,數字化創新的新模式 15 24 24 2 17 11 2 13 13 8 11 6 5 4 7 4 7 8 6 3 3 3 2 1 1 1 13 2 20 10 10 2 1 6 6 5 5 2 2 5 3 2 1 1 2 1 7 13 5 1 1 18 1 1 3 1 1 1 1 1 1 2 1 1 2 5 9 10 1 2 1 2 1 2 1 5 2 1 1 3 1 1 1 1 1 2 數據來源:WIPO(世界知識產權組織)-2019 人工智能技術趨勢展望 圖 1-8 計算機視覺、語音處理、自然語言處理等技術領域的專利發布趨勢 表

36、 1-6 涉及不同技術類型的賽題示例 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 16 數據競賽,數字化創新的新模式 19811986199119962001200120112016 0 2,000 4,000 6,000 Note: A patent may refer to more than one sub-category 19811986199119962001200120112016 0 1,000 2,000 3,000 Note: A patent may refer to more than one sub-category 1981198619911996200

37、1200120112016 0 1,000 2,000 Note: A patent may refer to more than one sub-category 三、全球數據競賽發展歷程 1. 以工業應用為目標,數據競賽模式誕生 全球數據競賽市場已經歷了 20 余年的探索,其發展起點可追 溯至 1997 年首次問世的 KDD Cup,這也是數據科學領域迄 今為止最重要的國際賽事之 一。 推出 KDD Cup 的 KDD (Conference on Knowledge Discovery and Data Mining, 知識發現和數據挖掘會議)隸 屬于 ACM(Association f

38、or Computing Machinery,國際 計算機學會),是響譽全球的 頂級學術會議。 1997 年 的 首 屆 KDD Cup 要 求參賽者通過數據分析,判斷 出哪些人有可能成為美國癱瘓 退伍軍人協會的捐贈者,從而 幫助協會更精準地發送求助郵 件。此后,KDD Cup 保持了一 年一度的舉辦慣例。1999 年 KDD Cup 的賽題更為經典,選 用了來自美國國防部高級規劃 署在 MIT 林肯實驗室操作進行 的入侵檢測評估項目數據,希 望參賽者能夠分辨那些操作是 外部入侵,獲勝者是廣為人知 的統計分析軟件公司 SAS。作 為數據挖掘領域影響力最廣、 水平最高的國際頂級賽事, KDD C

39、up 每年都會吸引大量優 秀的企業、高?;蚩蒲袡C構協 辦賽事,或直接參給與競賽角 逐。 通過 KDD Cup 的歷年賽題不 難看出,雖然面臨的問題日益 復雜,但始終帶有強烈的工業 應用色彩,高度契合各類組織 機構的實際需求,也不斷涌現 出全新的應用場景。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 圖 1-9 KDD Cup 歷年賽題 數據競賽,數字化創新的新模式 17 2. 引領全球化前沿探索,國際頂會先鋒探路 繼 KDD Cup 之 后,ICCV、NeurlPS、ISBI、Euro CSS、ECML- PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、C

40、VPR (ActivityNet)、IWCS、ECCV 等國際頂尖學術會議也陸續牽頭 舉辦數據競賽。國際頂會數據競賽往往會積極兼顧市場應用的需 求,通過與企業、政府機構合作,聚集當下技術與數據應用中的 難點尋求解決思路,不斷縮短科研成果與落地應用之間的距離, 賽題內容廣泛覆蓋醫療、軍事、互聯網、交通出行、快消零售、 生態及文化保護等眾多場景。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 國際頂會除了在世界不同地域舉行年度性盛會外,也開始聯手全 球各地的企業、科研機構共同籌辦數據競賽,以競爭形式幫助前 沿數據科學技術的進一步發展。這類享有頂會權威背書和國際影 響力的重大賽事在全球范圍

41、內得到了積極響應,參賽對象不僅限 于技術水平突出的個人,還囊括了科研實驗室、高校和企業等一 系列組織。中國企業、高校及科研機構和個人參賽者在國際頂會 數據競賽的獲獎次數呈現逐年上升的趨勢,亦反應了中國在數據 科學領域的實力和影響力不斷加強。 表 1-7 國際頂會數據競賽賽題示例 18 數據競賽,數字化創新的新模式 案例特寫:KDD Cup 2019以工業應用為導向的全球性頂級競賽 賽事主辦方:KDD 2019 年,KDD Cup 首次同步開設常規機器學習、自動機器學習、強化學習三條賽道: 常規機器學習賽道(百度承辦):在賽題擬定上著眼于“智慧出行”,要求參考者基于城市復雜的出行情境推薦包括 公

42、共交通、出租車、自駕、騎行、步行等多種方式在內的合理的多模態出行方案。 自動機器學習賽道(第四范式、ChaLearn、微軟和亞馬遜聯合承辦):要求參賽者設計時序關系數據二元分類的解 決方案。 強化學習賽道(IBM 承辦):參賽者需要運用機器學習工具設計瘧疾干預措施在模擬人群中的分配方案,以此為撒哈 拉以南非洲地區的瘧疾政策提供決策支撐。 連續舉辦 20 余年的 KDD Cup 以“創新”為核心驅動力,加之積極擁抱全球化的態度,對工業界產生了強大的吸引力。 正是越來越多來自世界各地的企業以其真實業務問題與相關數據為基礎提出賽題建議,從而促使 KDD Cup 通過設立更 豐富的賽道來探索前沿技術在

43、真實場景中的應用價值,并創立了總額突破 10 萬美元的豐厚獎金,吸引了逾 1600 支國際 參賽隊伍的加盟,影響力創歷年之最。 3. 平臺化模式開啟,Kaggle 加速資源匯聚 數據競賽發展的里程碑繞不開 Kaggle,除了國際性的市場影響力 和知名度外,Kaggle 更是為數據競賽的平臺化發展奠定了模式的 基礎。 創立于 2010 年的 Kaggle 是目前全球最大的數據科學技術分享社 區和第三方數據競賽平臺,面向全球用戶累計舉辦競賽近 400 場 (含練習賽和自營賽),社區活躍用戶逾百萬。各類賽事主辦方 基于不同的目標通過 Kaggle 發布與數據相關的難題,懸賞吸引 全球的數據科學人才參

44、與競賽。 迄今為止的各項賽事中,近半數主辦方是希望通過競賽進行與真 實業務問題密切相關的創新探索(47.09%),其次是通過競賽的 廣泛影響力與參與度來促進學術研究(23.26%),同時也有不少 主辦方將數據競賽當作重要的品牌公關活動形式(20.93%)和招 聘渠道(8.72%)。 而從技術類型來說,Kaggle 的賽題主要涉及結構化數據挖掘 (58.14%)、計算機視覺(26.49%)、自然語言處理(11.63%) 和語音技術(1.74%)四大類。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 Kaggle 數據競賽的賽題場景呈現出豐富的多樣性,其中科技領域 的賽題數量占比達36.

45、05%, 具有絕對優勢。 緊隨其后的金融、 醫療、 學術科研等場景組成了第二梯隊, 第三梯隊則包含了社服務、 電商、 體育、零售和廣告媒體等應用場景。 圖 1-10 Kaggle 數據競賽主辦方辦賽目標分布和賽題技術類型分布 掃描上方二維碼 了解更多賽事詳情 28.49% 58.14% 11.36% 1.74% 23.26% 20.93% 47.09% 8.72% 數據競賽,數字化創新的新模式 19 應用在房地產領域的賽題數量只有 2 個,分別是房地產估價平臺 Zillow 發起的房產價值估算模型算法競賽,以及德勤發起的西澳 大利亞房屋租金預測模型算法競賽,其中 Zillow 憑借 120 萬

46、美元 的高額獎金激勵將房地產行業賽題的平均獎金拉升至 65 萬美元, 遙遙領先于其它行業。 緊隨其后的社會服務和醫療行業也在獎金數額上有不小投入。舉 例來說,美國交通運輸安全管理局隸屬于國土安全局,主要負責 機場安檢工作,該機構直接將面用公眾的數據競賽作為支撐其安 檢設備采購決策的重要依據,要求參賽選手開發出能夠精準識別 行李內危險物品的算法,并計劃將優秀的成果集成進安檢儀器以 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 提高安檢準備性和效率。這場競賽中,主辦方投入了高達 150 萬 美元的獎金,成為 Kaggle 競賽獎金之最。 此外,由博思艾倫咨詢公司發起的 Data Scie

47、nce Bowl 品牌賽事 主要聚焦于醫療領域,每屆賽事都會吸引全球范圍內各類機構組 織在獎金、數據等不同方面的協力贊助,如亞馬遜、英偉達等知 名企業,以及美國放射學會、國家癌癥研究所等科研組織。憑借 豐厚的獎金和盛大的規模,Data Science Bowl 已成為 Kaggle 平 臺上最具影響力的年度性盛事,并在全社會的積極參與下誕生了 大量創新成果。 圖 1-11 Kaggle 數據競賽賽題場景分布 20 數據競賽,數字化創新的新模式 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 在發展初期,Kaggle 聚集了一大批數據科學人才,形成了討論氛 圍濃厚的數據集、代碼與技術分享

48、社區,并在此基礎上開始逐漸 發展數據競賽服務。圍繞著數據科學,Kaggle 做出了諸多努力和 嘗試,平臺功能也日益完善,目前包含競賽、數據集、開發工具 表 1-8 Kaggle 平臺上獎金投入前 10 位的競賽 三個子平臺,配套論壇和招聘服務兩大模塊,逐漸發展成為連接 數據科學人才和數據科學應用場景雙方共同致力于數據科學創新 探索的工具性平臺。 數據競賽,數字化創新的新模式 21 Kaggle Days 在 Kaggle 的影響下,國外市場開始出現一批深耕不同細分領域 的競賽平臺,如重點關注生命科學領域的 InnoCentive 和主攻公 共服務領域的 DrivenData,此外,還有諸如 C

49、odaLab 等平臺支 持數據科學家自主發起賽事。 盡管中國市場起步較晚,但越來越多的企業、高校、科研機構和 政務部門開始意識到數據競賽是進行品牌宣傳、人才選拔、算法 創新的一種高效形式,因此投身數據競賽的姿態愈發積極。 在此背景下,中國市場也順勢崛起了一批數據競賽平臺,憑借在 資源整合、場景挖掘、工具開發、成果封裝等方面的專業服務能 力和經驗推動著中國數據競賽的專業化發展,并開始探索區別于 Kaggle 的差異化發展道路。 數據來源:和鯨科技()經調研統計得出。引用請注明出處。 此外,以百度、京東、華為、騰訊和愛奇藝為代表的一批企業從 2017 年開始逐漸意識到數據科學對于其運營發展的重要性,依托 其雄厚的技術先發優勢走上了自營數據競賽的探索道路,意圖借 此加強對數據的有效利用,從而優化企業運營流程、探索商業創 新方向、實現人才的可持續發展,“業務驅動 + 數據創新”是企 業自營數據競賽的核心驅動力,企業自營賽題往往緊密貼合其自 身行業特色和實際業務需求。 表 1-9 中國市場主流的第三方數據競賽平臺概覽 22 數據競賽,數字化創新的新模式 1

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(和鯨科技:數據競賽白皮書(62頁).pdf)為本站 (彩旗) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站