1、of數據科學協同平臺序第三章 數據競賽組織不易,需要克服專業壁壘一、對競賽復雜性的調研結果1. 主辦方對于專業性和項目效益的要求2. 參賽者對于嚴謹性和公平性的要求二、數據競賽的運營復雜度詳解1. 數據競賽需要綜合性的專業能力支撐2. 保障賽事相關方體驗需要面面俱到第四章 組織好一場數據競賽,重在能力建設一、優質數據競賽的定義二、數據競賽的最佳實踐1. 數據科學項目管理,支撐賽事成果有效性2. 數據競賽運營管理,保障雙邊賽事體驗第五章 數據科學驅動的創新生態展望附錄CONTENTS030405050609091216171919273841數據競賽白皮書聚焦三大核心看點,力圖全景式呈現數據競賽
2、驅動下的數字化創新生態。在白皮書上篇,將著眼于數據競賽的發展歷程與現狀,對其核心價值展開深刻剖析;在白皮書下篇,數據競賽的科學管理方法論和最佳實踐將得到深度分享。高亮看點02數據競賽,數字化創新的新模式關注數據競賽白皮書上篇,看點一、二深度內容盡在掌握。數據競賽白皮書上篇1000 場競賽的深度分析看點一:1000+ 場數據競賽,催生數據智能時代全球性政、企、學、研、資各界聯動新常態 2014 年至今,全球范圍內的各類數據競賽總量已突破 1000 余場。其中,僅中國市場就已發布共計逾 400 場數據競賽,年均增長率高達 108.8%。236 家企業、政務部門、高校和科研機構作為賽事主辦方參與其中
3、;吸引約36萬支團隊、 120萬人次參賽;獎金規模合計高達2.8億元人民幣,賽題覆蓋 33 個行業應用場景; 1997 年,享譽全球的國際頂級學術會議 KDD 推出 KDDCup,開啟了數據競賽的新模式,20 余年以來的賽題設計始終帶有鮮明的工業應用色彩。ICCV、NeurlPS、ISBI、EuroCSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等國際頂尖學術會議在全球化浪潮下也紛紛開始牽頭組織數據競賽??袋c二:15 個案例特寫,看懂數據競賽為何成為數字化創新的有效手段 以賽題承載應用場景,在緊
4、湊的競賽周期內高效整合數據、算法、算力、人才等要素,可敏捷驗證各類 AI 在真實商業場景中的落地方向和實效; 85% 的數據人才高度認同競賽對技術實踐能力的培養作用,競賽成為打破高校學科建設與人才培養瓶頸的有效手段; 競賽推進前沿科研探索落地,通過跨學科協作促進 AI 在不同領域價值釋放; 競賽成為數字化創新要素和匯集產、學、研、政各界資源的樞紐,助力數據創新生態建設和產業落地。數據競賽白皮書下篇辦好一場競賽的實操手冊看點三:100+ 場專業賽事服務經驗,一流競賽平臺開源數據競賽管理方法論與業界最佳實踐 面向千余名參賽選手的調研結果顯示,獎金并非競賽核心訴求,從專業性賽題、科學性評審,到協作工
5、具、精細運營,組織一場優質的數據競賽頗有挑戰; 競賽的生命周期面臨著來自參賽選手和主辦方的雙重考驗,需要能夠通過打造良好的參賽體驗,激發數據科學人才的能動性和生產力,并通過專業的數據科學服務能力和運營流程充分滿足數據競賽的多元訴求; 保障賽事效率和質量,開創數據科學研發的新模式數據科學協作工具,成為開放式數據競賽的重要的基礎設施。數字科技正逐漸滲透到經濟、商業、社會生活方式等方方面面,人們對于數據智能時代的來臨充滿了期待。然而,從現階段的發展來看,我們距離真正的大數據時代仍有距離,各行各業的數字化轉型進程未能如期落地。數據的力量究竟該如何激發?帶著這樣的疑惑,我們把視角對準了數據競賽這一載體,
6、以期為行業提供啟發。通過全面的調研、分析,我們得到了尋找創新路徑和探索最佳實踐的總結,形成這份數據競賽白皮書分享給大家。全球數據競賽市場已經歷了 20 余年的探索,其發展起點可追溯至 1997 年由國際頂級學術會議KDD (ConferenceonKnowledgeDiscoveryandDataMining, 知識發現和數據挖掘會議)推出的 KDDCup。此后,一系列國際頂尖學術會議也陸續牽頭組織數據競賽。國際頂會數據競賽往往會積極兼顧市場應用的需求,通過與企業、政府機構合作,聚集當下技術與數據應用中的難點尋求解決思路,不斷縮短科研成果與落地應用之間的距離。創立于2010 年的 Kaggle
7、 作為目前全球最大的數據科學技術分享社區,更是為數據競賽的平臺化發展奠定了模式化基礎,其合作伙伴除了 Google、Facebook、Airbnb、Yelp 等互聯網時代誕生的獨角獸,亦不乏 Walmart、Airbus、Genentech 等聲名日久的傳統行業領頭羊。放眼中國市場,數據競賽自 2014 年萌芽以來,數量每年以翻倍之勢增加,主導者不乏權威的科研機構與高校, 亦有來自各行各業的領軍企業。 身擔城市管理與民生重任的政務機構也在 “大眾創業、萬眾創新”的政策驅動下,開始意識到數據的力量,牽頭組織了多場大型數據競賽。數據競賽絕不僅僅只是“主辦方發布賽題、傳播品牌美譽,參賽者參與開發、收
8、獲豐厚獎金”的公關活動。對雙方而言,數據競賽已經成為了數字化轉型的”云端實驗室“。賽事主辦方緊跟數據智能的發展趨勢,通過挖掘數據價值的場景和樹立“數據 + 算力 + 人才 + 算法”的價值閉環,積累數據科學研發的核心能力;參賽選手能夠積累如何在真實業務場景中應用先進技術的實際經驗,在與眾多高手的交流切磋中不斷成長?;谶@一趨勢,在大數據系統軟件國家工程實驗室的指導下,和鯨科技“H”攜旗下中國領先的第三方數據競賽平臺 “和鯨社區(即K)” , 聯合AWS, 共同發布 數據競賽白皮書,分析全球市場數據競賽發展趨勢,提出對數據競賽推動前沿技術落地的創新價值思考,并在業界開源優質數據競賽運營方法論與最
9、佳實踐。序第三章數據競賽組織不易需要克服專業壁壘一、對競賽復雜性的調研結果二、數據競賽的運營復雜度詳解一、對競賽復雜性的調研結果調研發現,在多數的參賽選手心目中,數據競賽的質量取決于三個要素:主辦方的品牌知名度、賽事激勵的豐厚程度、競賽是否提供真實的數據。這些要素,也能夠吸引優質參賽選手,促進產出更高水平的成果。但是,這三點仍不足以保障優質競賽的完成。數據競賽牽涉到1. 主辦方對競賽有高預期應用場景、數據、算力、算法和人才等方方面面的復雜要素,包含了數據科學研發過程中的主要環節,從賽前籌備到賽中運營,再到賽后跟進,從應用場景挖掘到配套數據處理,從計算環境搭建到算法應用,從參賽選手管理到成果測評
10、,每個環節都需要專業能力和精細運營的支撐。2018 Kinetics 視頻行為分類比賽數據失誤導致重大競賽事故 2018 年,Kinetics 視頻行為分類比賽遭遇了賽事組織的多次事故。起因在于賽事運營方發布的訓練集數據中錯誤地混入了測試集數據。一周后,賽事運營方重新發布的數據集再度出現重大疏忽所有數據標簽被泄漏,意味著能夠驗證模型效果的答案遭到提前揭示,選手無須花費精力訓練可靠的模型。參賽選手向賽事運營方發送郵件反應數據集的問題,也未得到及時的回應和解決。賽事的公平性和參賽團隊的積極性遭到了破壞,同時引起了輿論爭議,賽事被迫延期。掃描上方二維碼了解更多賽事詳情不同的賽事主辦方舉辦數據競賽的初
11、衷各有側重,其共同的訴求是賽事進程平穩順暢、輿論評價正面積極、參賽選手能夠準確理解賽題、參賽選手技術能力出色、賽事成果具有優越表現。這需要不同環節的專業服務能力緊密配合,促成賽事實現最好的效果。正是意識到賽事籌辦和組織的復雜性,主辦方存在多方面的顧慮,擔心對于數據競賽的投入無法獲取預期回報,甚至損傷品牌形象。數據競賽還是需要依賴專業的辦賽平臺,因為數據競賽籌辦區別于普通的活動組織,企業缺乏專業的的賽事運營人員和賽題設計人員。上海電信互聯網部產品技術研發中心副經理葛正榮術業有專攻,優秀的企業更懂得互補 + 合作 = 共贏的價值。同盾除了不斷鍛造自身技術實力外,也積極推行在產學研領域的企業價值,創
12、辦專業的賽事、選拔潛在的專業科技人才,這需要專業的賽事平臺參與其中,從學術性與商業性相融合的賽題設計、到賽制中的數據質量與敏感把控,以及兼顧數據安全與賽題可解性,都需要更加專業的、垂直的競賽平臺來合作共建。同時,專業的競賽平臺擁有過硬的技術實力,可以勘驗參賽選手的成果。在整個賽事的宣傳節奏把控上,也能夠創造出豐富的內容及足夠觸達到目標群體的有效渠道。同盾大學運營人員娜娜場景的挖掘、算法的應用與迭代、產學研的緊密融合,共同孵化出數字化創新的新模式數據競賽。數據競賽白皮書上篇集中展現了不同的組織機構,如何以數據競賽為支點,探索數字化創新之路。運用科學的管理流程辦好一場有價值的數據競賽,是賽事主辦方
13、和參與選手的共同訴求,正如第一屆世界黑客大會的發起者KevinKelly 所說:“在過去 200 年里,我們最偉大的發明恰恰是科學流程自身”。過去五年間,全球 1000 余場數據競賽經歷著模式的迭代與流程的優化,有全新應用場景的不斷開拓,又有前沿算法的持續升級。作為數據科學研發的演兵場,如何合理地制定賽題、管控賽事流程與機制、實現算法成果的應用是發揮數據競賽價值的關鍵點?;谏掀獌热?,數據競賽白皮書下篇致力于闡釋數據競賽價值落地的復雜要素,分享辦好數據競賽的方法。數據競賽組織不易,需要克服專業壁壘05從參賽頻率的維度來看: 競賽新手:關心自己是否值得將精力投入到競賽中,獲得經驗與成長,認為優質
14、的數據競賽首先應該具備科學合理的賽題、數據和測評辦法,競賽頁面的文字描述需要清晰、專業、合理。 競賽??停涸谫愵}與數據相匹配的基準要求被滿足后,則更關心完善的賽制、自動測評等功能點能夠保障良好的參賽體驗。 競賽老手:獎金或工作機會等實質性激勵是他們首要考慮因素,且激勵也需要以合理、可解的賽題為基礎;此外,他們也會傾向于投入精力加入前沿性難題的探索。圖 3-1 不同參賽頻率的調研對象判斷數據競賽是否優質的考慮因素排序數據來源:和鯨科技()經調研統計得出。引用請注明出處。16.015.014.013.012.011.010.09.08.07.06.05.04.03.02.01.016.013.01
15、2.015.010.09.014.08.04.05.02.011.03.01.07.06.011.014.01.013.07.05.015.012.03.07.010.08.09.06.02.04.02. 參賽者對競賽有嚴要求選手的技術潛力的釋放程度和技術能力的發揮水平,高度依賴于賽事全生命周期的技術支撐和運營管理。數據競賽參賽者調研的結果顯示:組織“優質的數據競賽”需要兼備專業的技術儲備和豐富的項目管理經驗。06數據競賽組織不易,需要克服專業壁壘數據競賽組織不易,需要克服專業壁壘07圖 3-2 不同參賽頻率的調研對象認為影響數據競賽質量最重要的因素數據來源:和鯨科技()經調研統計得出。引用請
16、注明出處。從參賽成績的維度來看: 青銅玩家:除了要求題意表達通暢清晰外,希望公平的賽制和完善的測評功能能夠保障競賽的鍛煉價值。 白銀玩家:最關心賽題與數據匹配程度;進而關心有科學的測評算法合理評估選手的表現;而為了更有效率地展現實力,白銀玩家也要求優質的數據競賽配套功能全面、性能優越的算法開發工具和計算資源。 黃金玩家:對自己的能力充滿自信,因此對于優質數據競賽的定義簡單直接:不浪費時間、不枉費付出,即賽題、數據、評審辦法科學合理,且有敏捷完善的產品功能予以支撐,從而保證其精力最大程度投入解題本身;同時要有與自己的開發成果相般配的豐厚回報;水平一流的黃金玩家比起其他人也更愿意投身前沿課題的研發
17、。圖 3-3 不同參賽成績水平的調研對象判斷數據競賽是否優質的考慮因素排序數據來源:和鯨科技()經調研統計得出。引用請注明出處。16.015.014.013.012.011.010.09.08.07.06.05.04.03.02.01.016.014.012.011.06.03.013.015.08.01.04.02.010.07.09.05.012.014.02.07.06.013.016.015.011.05.09.010.01.08.04.03.0圖 3-4 不同參賽成績水平的調研對象認為影響數據競賽質量最重要的因素數據來源:和鯨科技()經調研統計得出。引用請注明出處??梢钥闯?,調研對象
18、雖然擁有不同程度的參賽經驗和成績表現,但對于數據競賽從賽題、評審到工具、運營均擁有復雜而嚴苛的要求競賽內容富有實際意義、競賽服務專業周到。選手需求的復雜性和多元性,對于賽事的主辦方和賽事平臺,也提出了嚴格而專業的要求。08數據競賽組織不易,需要克服專業壁壘優質的數據競賽需要把控住賽事的全流程,每一環節的成果產出都將直接影響其它環節的工作,影響整場賽事的質量。這對賽事二、數據競賽的運營復雜度詳解1. 數據科學項目管理,支撐賽事成果有效性名熱情上只稍遜于算法題,但最終成果的提交數量卻遠低于算法題。算法賽題需要對應用場景進行高度收斂,開放性方案題則不設邊界,能讓選手充分發揮創意,往往可收獲意想不到的
19、、但實則可行的數據與技術在場景中的應用方案,從而可為技術進一步落地指明方向。也是由于邊界發散,導致考核標準難以界定,成果表現從而也往往不夠穩定。數據來源:和鯨科技()經調研統計得出。引用請注明出處。圖 3-5 開放性方案題與算法題的參與規模與提交數量對比0150014001300120080090010001100700600500100200300654566821407組織運營者的業務解讀能力、技術能力和溝通能力提出了持續的考驗。a. 需求分析和賽題設計需求分析和賽題設計的首要任務是能夠充分理解、拆解、定義競賽主辦方的真實訴求,使其可被數據競賽承載和實現。賽事組織方需要對業務場景進行賽題邊
20、界的確定,使得賽題方向與主辦方的行業特征、業務特點、數據儲備相匹配。面向大眾廣泛收集開放性方案的競賽形式也很常見,因為許多行業的數字化轉型正處于起步階段,需要創新方向的借鑒與啟發。通過對國內數百場數據競賽的分析,我們發現開放性方案題在報通過需求分析和賽題設計,賦予數據競賽創新意義和業務價值,進而借由數據和計算資源管理保障該創新價值落地,有著綜合性的挑戰。數據競賽組織不易,需要克服專業壁壘09b. 數據管理賽題設計需要兼顧是否可解、是否具備業務應用價值或前沿技術探索價值等多方面的因素,而這皆以“數據”為基礎。數據層面有三個重點:數據質量、數據集切分、數據安全,任何一點的疏漏都會導致潛力巨大的賽題
21、難以兌現價值。(1)數據質量數據質量問題可能發生在數據收集、 治理、 加工和采樣的各個階段,數據質量低下表現在字段缺失、信息過時或信息不準確等方面。在數據競賽的時間要求下,數據質量低下容易導致選手分散過多精力進行數據的二次處理,限制了算法所能達到效果的天花板。質量低下的數據難以反映實際生產生活中的真實情況,最終影響模型成果在業務場景的表現。另外一種常見的數據質量問題是信息交互泄漏(DataLeakage),如數據的某些屬性、特征、字段已潛在暴露了需要通過算法模型進行預測的信息結果。一個易懂的例子是,一道賽題要求參賽者識別圖片中的動物是否為鳥類,而在進行數據采樣時,所有鳥類的圖片 ID 均以 1
22、 開頭,而所有非鳥類的圖片 ID 均以 2 開頭,參賽選手通過圖片 ID 字段即能判斷結果,通過取巧的模型也有不俗的分數表現,但沒有業務價值。利用信息交互泄漏漏洞而取得虛高分數的行為,也會破算法模型類賽題相比開放性方案賽,有更加穩定的表現,其設計過程也存在著諸多考驗:在需求分析結果和賽事數據條件的基礎上, 在成本限制、 計算資源、 數據安全的約束條件下,最終的賽題需要平衡可解性、前沿性和創新性等多方面的要求。算法賽題需要以清晰明確的表達方式,幫助參賽選手充分理解其考察重點和開發目標,同時配套科學的測評方法對賽事效果進行合理評價。圖 3-6 數據管理需要兼顧三個層面的重點數據來源:和鯨科技()經
23、調研統計得出。引用請注明出處。壞競賽的專業性、公平性,激發負面的評價。(2)數據集切分數據集切分是模型構建的重要前置工作。在數據競賽中,數據需要被切分為訓練集和測試集兩部分。其中訓練集供參賽者用以搭建、訓練模型,測試集則用以檢驗其模型的性能水平。舉例來說,在數據量總體有限的情況下,若測試集的數據量過少,則無法客觀反應數據全貌。如果在切分數據集時未能控制好數據分布,也會影響模型實際表現的上限,容易出現模型在某個數據集上過擬合的情況,進而影響其泛化性能。(3)數據安全出于對數據所涉敏感信息或商業機密的保護需要,數據安全是賽事主辦方重點關心的問題,數據脫敏是這一問題的常見手段。優質的脫敏算法要充分保
24、障數據的隱秘性,確保參賽選手無法通過技術手段逆向解碼,獲取脫敏前的信息。如果數據的脫敏處理欠缺科學性,一方面可能會反而脫敏失效,另一方面也會導致參賽者在特征工程階段被誤導。10數據競賽組織不易,需要克服專業壁壘數據競賽組織不易,需要克服專業壁壘11c. 成果管理成果管理是影響數據科學項目項目效果的“最后一公里”,成果版本管理混亂、成果不可復現都是常見的賽事項目管理問題?;靵y的成果版本管理會導致團隊協作效率低下、數據科學項目進度緩慢,并且最終在驗證算法效果時難以做到對應版本的跟進和回溯。成果的不可復現,會導致算法成果在實現應用時達不到預期效果,投入產出比模糊。d. 計算資源管理充沛的算力可以滿足
25、 AI 模型的優化需求,也容易導致對于算法創新的忽視,算力供給也會帶來較大的經濟負荷。因此,搭建統一的云端競賽環境便成為必然趨勢,不僅能夠使競賽突破物理空間的限制,也能夠鼓勵選手在一定的算力限制條件下側重算法層面的設計與創新。對此相對的情況是,計算資源供應不足,則會出現模型運行時間過長、內存溢出、資源互相占用等現象,導致參賽者難以在既定時間內完成對模型的迭代優化。因此,對競賽全程的計算資源消耗量做精確的預估,充分平衡成本限制、 賽題難度和賽事規模等多方因素, 是賽事籌備的重要任務。圖 3-7 賽程運營管理具有相當的復雜性數據來源:和鯨科技()經調研統計得出。引用請注明出處。2. 保障賽事相關方
26、體驗需要面面俱到a. 賽制公平公正的數據競賽環境和合理的賽制設計,是保障賽事主辦方和參賽選手體驗的基礎,其中牽涉了科學的成果測評、反作弊機制等方面。在自動測評方面,測評代碼要嚴格契合賽題數據的要求,確保競賽開發成果的性能表現和參賽選手的能力水平能夠得到合理的評估,即具備可解釋性和結果的可復現性。同時,測評代碼還需要保證多人并行大量提交下的穩定性,確保參賽體驗流暢。在常見的作弊手法中,包括利用排行榜和測評代碼的漏洞,通過有規律的提交去猜測正確答案的排行榜探查(LeaderboardProbing)行為,通過高頻提交粗暴堆分或人工標注答案的暴力刷分(BoostingAttack)行為,為了追求分數
27、表現刻意構建過擬合模型的行為。b. 賽程運營管理環節一場數據競賽牽涉賽事主辦方、賽事運營者、參賽選手、媒體等方方面面的利益相關集體,彼此之間背景、分工、訴求不盡相同,兼顧各方體驗的協作具有較大難度。而賽程運營管理則以串聯者的角色整合了貫穿數據競賽前期籌備、賽事運營、賽后結項等全生命周期的各類賽事相關要素,工作范圍涉及資源統籌調配、賽事流程推進、選手社區運維、階段進展匯報、風險防范控制、成果管理移交等方方面面。缺乏成熟專業的賽程運營管理,輕則可能延滯數據競賽進度的順利推進,重則可能導致前期投入無法產出效益。12數據競賽組織不易,需要克服專業壁壘c. 工具支撐數據競賽的組織具有較高的技術難度,從最
28、初要求順暢地跑通競賽全流程,到能夠進行云端協同開發,再到保障日益敏感的數據安全,越來越多的問題有賴于產品工具的功能保障。(1)競賽工具 1.0 時代數據競賽系統數據競賽系統是數據競賽最基礎的工具系統,為了實現對數據競賽全生命周期的管理。作為連接參賽選手、賽事運營管理者和賽事主辦方的線上橋梁,其功能覆蓋競賽頁面信息配置、競賽任務圖 3-8 競賽工具 1.0 的功能要求數據來源:和鯨科技()經調研統計得出。引用請注明出處。發布、評審系統設置和參賽成果統計等方面,目標是提高賽事運營管理者工作效率,便于賽事主辦方了解賽事進程。數據競賽的公平性在很大程度上有賴于評審環節是否妥當,而評審又涉及復雜的算法和
29、規則:既要保障不同復雜程度的客觀評審規則的自動化執行,又要對主觀評審的分工權重與規則做出合理呈現,也能對多次提交和賽程各階段的結果實現高效處理和統計,及時反饋報錯信息或得分情況,可以說評審系統是整個競賽系統開發的難點和重點。數據競賽組織不易,需要克服專業壁壘13圖 3-9 競賽工具 2.0 的功能要求數據來源:和鯨科技()經調研統計得出。引用請注明出處。(2)競賽工具 2.0 時代數據競賽系統 + 數據科學協同平臺 +云計算在企業上云和協同開發的趨勢下,競賽工具 2.0 時代迎來了數據科學協同平臺的整合。通過實現在云端協作進行數據分析和算法建模等工作,讓數據競賽真正貼近業界實際的數據科學研發場
30、景。目 前 全 球 范 圍 內 接 受 度 較 高 的 工 具 包 括 國 外 的 JupyterNotebook、 KaggleKernels、 GoogleColab, 以及國內的K-Lab。在數據競賽環境中需要至少滿足三個方面的要求:提升效率,令參賽選手更加專注于開發本身;加強協同,為參賽團隊打造交互式體驗;彈性調度云計算資源,降低算力應用門檻與成本的同時,也讓比賽更公平更有效。14數據競賽組織不易,需要克服專業壁壘數據競賽各環節的工作內容,展示了數據科學研發的項目項目所需具備的基礎能力。通過數據、云計算、人工智能技術、數據科學人才的連接,數據競賽在幫助賽事主辦方探索創新方向、樹立技術驅
31、動的品牌形象同時,也在為其在內部積累數據、治理數據、應用數據提供了全流程的借鑒。在這個過程中,賽事主辦方可以充分利用外部優質資源加速實現技術落地的創新探索,同時積累扎實的數據科學核心能力。圖 3-10 競賽工具 3.0 的功能要求數據來源:和鯨科技()經調研統計得出。引用請注明出處。(3)競賽工具 3.0 時代數據競賽系統 + 數據科學協同平臺 +云計算 + 數據安全在大數據產生巨大社會價值的同時,一次次的數據安全事故也引發了全社會的擔憂。數據競賽作為數據公開應用的大規模嘗試,數據安全的保障更是重中之重。除了采用數據脫敏等傳統手段外,通過競賽工具的技術功能來保障數據安全也日益受到重視。數據競賽
32、組織不易,需要克服專業壁壘15第四章組織好一場數據競賽重在能力建設一、優質數據競賽的定義二、數據競賽的最佳實踐一、優質數據競賽的定義作為整合 AI 技術和應用場景的樞紐,連接數據人才和業務問題的橋梁,優質的數據競賽既要能夠激發數據人才的能動性和生產力,又要滿足賽事主辦方的主要訴求。前者需要打造良好的參賽體驗,后者又須培養扎實的數據科學運營能力,即優質的數據競賽應同時滿足競賽體驗的順暢性和競賽成果的有效性。 競賽體驗的順暢性以系統化、專業化的運營手段嚴格把控賽事質量,以易用的工具、合理的計算資源支撐賽事功能,保障各個環節的平穩推進和過渡,激勵參賽選手在公平、公正的競賽環境下充分發揮能動性和專業實
33、力,高效創造出性能優越的競賽成果。 競賽成果的有效性在充分理解賽事主辦方業務特征與辦賽訴求的基礎上,通過賽題最大化呈現技術在具體應用場景下的價值,將數據競賽打造成為高度整合“數據 + 算力 + 算法 + 應用場景 + 人才”的標桿,為數字化創新提供借鑒與思路。組織好一場數據競賽,重在能力建設17圖 4-1 優質數據科學競賽的關鍵要素數據來源:和鯨科技()經調研統計得出。引用請注明出處。18組織好一場數據競賽,重在能力建設組織好一場數據競賽,重在能力建設19二、數據競賽的最佳實踐為了滿足競賽體驗的順暢性和競賽成果的有效性,第三方數據競賽平臺需要沉淀專業的數據科學項目管理方法、培養周到的競賽管理能
34、力,并以積極的態度與賽事主辦進行分享,真正做到為其創新探索動作進行全方位賦能。1. 數據科學項目管理,支撐賽事成果有效性a. 貼合實際場景的需求分析和賽題設計為了快捷、高效、準確地尋求數據創新的切入點和賽題方向,競賽運營平臺在日常工作中需要注重對各行業、各領域的洞察積累和研究分析,挖掘各行業的業務特征、發展趨勢和價值生態。在面對具體的數據競賽項目時,結合賽事主辦方的實際業務價值和實現風險,快速敏捷地構建數據創新解決建議。圖 4-2 和鯨數據創新解決建議,以快消行業的線上營銷網紅渠道場景為例數據來源:和鯨科技()經調研統計得出。引用請注明出處。在初步厘清具有較高實現把握的賽題應用場景方向之后,則
35、進入了具體的賽題設計階段。賽題設計需要考慮如下原則: 賽題的未來應用價值在緊湊的競賽周期內能夠基于現行技術實現; 賽題與現有數據條件充分契合; 賽題具有充分的可解性,又能夠保有一定的難度和挑戰; 賽題以清晰、明確的表述方式向參賽選手予以呈現; 賽題配套的測評方法需要綜合考量學術指標、生產指標與競賽效果 引入行業專家共同參與賽題的打磨并對賽題質量提出意見。案例特寫:中國銀聯高校極客挑戰賽賽題擬定充分貼合實際業務價值賽事主辦方:中國銀聯 中國銀聯于 2019 年 6-9 月舉辦了高校極客挑戰賽,希望為 2020 年的校園招聘提前網羅優秀的數據科學人才,同時與高校進行技術碰撞。因此,賽題的擬定需要與
36、銀聯的業務特征高度契合。最終,競賽運營平臺設計的賽題要求參賽選手基于脫敏和采樣后的約 40,000 條用戶消費行為數據,預測在未來的一段時間內,用戶對于某產品是否會有購買和收藏的行為。相較于大量結構化數據支撐的賽題,這場競賽著重考察了選手在業務冷啟動時對于小數據量的適應和調整能力,而這也符合銀聯大量新生業務在數據量積累不足的條件下仍賴于通過數據建模提供決策支撐的真實情況。20組織好一場數據競賽,重在能力建設組織好一場數據競賽,重在能力建設21b. 審慎的數據籌備與質量管控(1)數據甄選和評估數據甄選不僅要做到能夠從數據源頭上支撐賽題的可解性,配合賽事主辦方積累數據采集和管理方面的能力。競賽運營
37、平臺需要積累國內外的開放數據資源,形成豐富的數據案例庫,以此為基準幫助賽事主辦方進行數據采集和管理。在實際競賽中,要第一時間面向賽事主辦方收集數據樣例,深入了解數據采樣過程、方法和數據的業務特色,結合賽題的應用場景和技術類型,從字段的完整性、關聯性等多個方面系統性地檢查數據集質量。案例特寫:同盾科技聲紋識別建模大賽數據處理充分考量競賽成果未來應用條件賽事主辦方:同盾科技 同盾科技希望籍由數據競賽引領語音智能識別領域的工業級算法創新,要求參賽選手開發算法模型來判斷任意兩段語音出自同一說話人的概率,從而加速聲紋識別在金融風控方向的技術落地??紤]到聲紋識別模型未來在目標場景中的應用存在各類約束條件,
38、如模型要能在各性別、口音中都能發揮平衡效果,模型對長句和短句均具有較快的識別效果等,因此在為賽題籌備數據時就應予以提前考慮,并對數據做出相應的加工處理。聲紋識別模型未來應用時的約束條件場景噪音說話人的方言、性別影響模型在說話人長短不一、內容不一的語音對上都能有較好表現通常深度學習模型在越大規模的數據集上的效果會明顯優于經典模型,因此需通過更大規模的數據來再訓練,以增強模型在部分音頻上人工疊加背景場景噪聲在測試集中等分了方言、性別的語音數據對1.做文本無關(text-independent)的說話人比對2.將有限的音頻在兼顧等分的條件下進行合理的人工拼剪,形成數千對長短不一的數據,并與短句音頻進
39、行比對額外補充公開數據來擴充數據量級在優質數據的充分支撐下,260 支參賽團隊最終呈交出了出人意料的優質成果。其中,冠軍團隊實現了一種端到端的聲紋特征學習模型,EER 得分高達 0.0011111 分(越接近零分意味著模型精確度越高),已經達到甚至超越了聲紋識別的工業級水平,引發了廣泛的行業關注。掃描上方二維碼了解更多賽事詳情過小的數據量可能不足以支撐賽題的解答,最終開發出的算法模型性能有限,而過大的數據量需要占用巨大的儲存空間、消耗海量的計算資源,同時也會使得參賽選手的分析開發工作耗時日久,從而違背了數據競賽經濟、高效、敏捷的初衷。競賽成果投入真實場景的應用,會面臨種種現實約束條件,需要結合
40、數據實際情況預判可能出現的質量風險,并采取合理的手段甄選質量優良、數量合理的數據,提出改善數據質量、或對數據進行加工的方法建議。圖 4-3 數據集切分示意數據來源:和鯨科技()經調研統計得出。引用請注明出處。(2)數據集切分賽事的競賽數據集由四個部分組成:作為模型開發輸入的訓練集數據、作為模型開發輸出的訓練集標簽、作為模型測試輸入的測試集數據(無標簽樣本)、作為評估模型的真實測試集標簽。目前普遍的數據集切分方法是按一定比例進行隨機切分,這樣的切分方式表面看似公允,但沒有考慮數據分布特征具有的不確定性。舉例來說,如果訓練集和測試集過于相似,模型在訓練集上的過擬合表現則無法在測試集上被驗證發現,最
41、終得分虛高;而如果訓練集和測試集的相似度低,則基于訓練集數據特征訓練出的模型在測試集上則可能有不同的表現。為了避免隨機切分帶來的潛在問題,對抗驗證(AdversarialValidation)不失為行之有效的辦法: 首先,采用一系列分析手段來量化判斷在不同的切分方式下,訓練集和測試集之間的相似度變化; 在此基礎上,結合實際賽題的業務價值、難度定位、效果預估等多方面因素找到最合適的相似度指標; 最后,依據該相似度指標切分數據集,邀請專業人士進行測試,確保切分結果能夠保證比賽質量的同時考察模型的泛化性能。22組織好一場數據競賽,重在能力建設組織好一場數據競賽,重在能力建設23評審反饋是指參賽選手提
42、交成果,接受評審后所能獲得的反饋信息。比如在客觀測評后能夠看到評審算法所反饋的分數,或若提交失敗,收到報錯原因的具體反饋等。其中,報錯反饋的設計尤為需要周全與具體,其設計要能盡可能同時給到選手全部的提交報錯原因,能提供建設性提示。(2)客觀評審客觀評審是指通過設置考察指標,對參賽選手開發的算法模型的推理效果進行評估。由于客觀評審指標不存在主觀干預,因此可直接通過編寫測評算法腳本,自動完成對參賽成果的評審過程,并輸出評審結果。合理的測評算法需要從有效性、穩定性和安全性三個維度出發予以保障。首先保證測評指標的有效性,在此基礎上盡可能提高其穩定性和安全性,優先觀察安全性指標,一旦低于某個閾值,則停用
43、該指標。有效性需要考慮測評指標能夠充分反應算法模型投入實際應用時的業務側重點,并能夠如實考察選手的模型在該側重點上的表現效果。c. 科學有效的競賽成果評價機制設計科學的評價機制,能夠有效評估參賽選手的真實水平和競賽成果的價值,幫助賽事主辦方對于數據競賽的意義有更加直觀的感受,也能為數據科學研發的迭代指明方向。從參賽選手的視角出發,在其付出和能力得到客觀評價的同時,更重要的是能夠在清晰合理的評價反饋引導下更加高效地優化模型性能。(1)評審機制評審機制包括評審類型、評審次數和評審反饋。其中,評審類型包括客觀測評和主觀評審兩大類: 客觀測評是通過測評腳本進行的自動化評審,評價的是競賽成果模型在一些既
44、定維度上的客觀表現效果; 主觀評審則會兼顧考查競賽成果模型的實現成本、在時間和空間上的運行復雜程度、算法思路的創新性等,甚至包括參賽選手最終在決賽路演中是否清晰地傳達了自己的解題思路等。為了保障評審機制的平衡性,需要對評審次數和評審反饋內容進行精細化設計。具體來說,過多的評審次數可能引發刷分現象,過少的評審次數據又限制了參賽選手通過獲得反饋來進行成果優化的機會,因此在兩相之間需要有所平衡。示例:通過攝像頭實時畫面識別工人進入施工現場是否佩戴安全帽的算法更著重考察的應是查全率(Recall),即確保盡可能所有未佩戴安全帽的目標都能夠被檢測到并發出告警,寧肯因為錯誤識別佩戴了安全帽的目標而發出冗余
45、告警,也要杜絕因為遺漏而導致的安全隱患。無人超市的顧客在前往自助柜臺結賬時,機器會打開攝像頭檢測顧客是否為數據庫內記錄的有過逃單行為的顧客,如發現疑似歷史逃單客戶則會給工作人員發起提示。在這個過程中,算法需更加著重考察查準率(Precision),即盡量不錯怪顧客,否則會給顧客帶來不必要的麻煩甚至傷及其名譽。有效性又分為排名有效性和數值有效性。前者衡量的是該指標能否正確地對選手表現進行排名,后者衡量的是選手的排名差距是否合理地反映了選手模型的性能差距。一般而言,測評指標的排名有效性與其數值有效性之間不存在絕對的關系,因此在指定該測評算法的時候需要在滿足排名有效性的前提下盡可能地滿足數值的有效性
46、。指標的穩定性是指,當被機器學習中的隨機因素干擾時,排行榜體現的分值與排名也不會發生劇烈波動,依然能夠準確地反映選手的能力和模型的效果。通常容易被所忽略的是測評指標的安全性,是指該指標能夠盡最大可能確保數據信息不會被泄露,即避免參賽選手在提交次數限制范圍內不斷提交,從而通過和測評分數比對來推斷測試數據的信息,進而實施作弊來提升分數。(3)主觀評審主觀評審需要與客觀測評算法有一定的區分度,從而能對參賽選手的表現做出更綜合的評價,主要是從競賽成果的有效性、創新性和性能三個維度進行考慮。有效性是指選手提交的成果模型是完整的,且代碼能夠完成復現。創新性則考慮了成果模型是否采用了與現有方法不同的創新思路
47、,也是判斷其是否具有更多潛在價值的重要依據。性能是在客觀測評算法之外進一步考查其在運行過程中消耗的計算資源、時間,以及技術的普適性和復用性。舉例來說,不少選手在競賽中為了追求客觀測評算法的分數表現,會采用大模型的堆疊,從而計算速度有所折扣。比如一道要求開發模型能實時識別并定位視頻畫面中人臉五官的賽題,如果僅追求識別的精準度而堆疊復雜的模型,實際運行時的識別和定位過程則需要耗費十余秒而非實時完成,那么其未來的商用價值必將大幅縮水,也難以取得好的成績??紤]到競賽成果需要兼具實際應用性和技術先進性,需要在業務背景和技術背景上跨學科領域的專家共同完成主觀評審??茖W的方法論需要綜合考慮不同背景的專家應從
48、哪些指標出發進行評審、以及不同指標的計分規則和權重如何設計。24組織好一場數據競賽,重在能力建設組織好一場數據競賽,重在能力建設25b. 平衡成本和效率的計算資源管理與配給云端競賽環境下需要為參賽選手配給相應的計算資源,在充分平衡成本投入和建模效率的原則基礎上,計算資源的預估需要注重從過往辦賽經驗中總結計算資源使用規律。同時,競賽運營平臺在日常工作中要對各類具體算法問題的最新技術進展、人才發展水平和計算資源要求的變化保持高度關注,力圖構建起業界領先的計算資源用量預測模型。在面臨具體賽事時,結合賽事主辦方對參賽規模、賽事周期的要求,以及賽題的技術類型和難度,對計算資源用量進行合理預估??紤]到復雜
49、的競賽環境和賽題內容要求,在實際賽程中,計算資源也需要實現對 AWS、阿里云、騰訊云等國內外各大主流云廠商進行靈活的跨云調度,以防止單一云廠商的算力資源用量無法滿足同時段內多場競賽的算力資源使用需求。在競賽運行時,會對相應的計算資源進行彈性調度,當用戶使用結束后及時自動釋放運算資源,從而降低計算資源的浪費率。圖 4-4 根據賽事規模、周期評估云資源用量并進行靈活的跨云調度數據來源:和鯨科技()經調研統計得出。引用請注明出處。圖 4-5 在賽程中實時監控計算資源用量數據來源:和鯨科技()經調研統計得出。引用請注明出處。2019-10-0601002003004005006002019-10-08
50、2019-10-102019-10-122019-10-142019-10-162019-10-182019-10-20 AWS AWS.paddle pro-aws-m4.2xlarge jd-p.n1v100.2xlarge AWS-LONG AWS-p2.xlarge R-3.6.0AWS.paddle:17.5pro-aws-m4.2xlarge:0jd-p.n1v100.2xlarge:0AWS-LONG:0AWS-p2.xlarge:0R-3.6.0:02019-10-06在科學的方法論指導下完成以上賽事籌備工作后,建議對全流程進行嚴格的完整測試,除了內部測試外,聯系數據科學領域經
51、驗豐富的頭部選手和產業專家進行外部測試也不失為理性選擇。通過模擬參賽選手視角,在測試環節發現可能出現的問題并予以提前解決,為賽事的順利進行和成果價值實現打上更牢靠的保險。此外,賽事主辦方和競賽運營平臺在數據競賽的舉辦過程中,都能夠對算力用量按個人、分時段進行實時監控,對異常使用行為進行及時干預,而歷史用量統計數據也能夠進一步服務于計算資源用量預測模型的優化。26組織好一場數據競賽,重在能力建設2. 數據競賽運營管理,保障雙邊賽事體驗a. 提供云端競賽環境突破本地配置限制針對機器學習問題,提供充足的數據和算力能帶來比較可觀的模型效果提升。但這并非長久之計,在大多數業務情況下,其數據積累和治理程度
52、不足,無法形成海量可用數據,大規模的算力也是高昂的成本。因此,在一定算力消耗的條件下鼓勵敏捷的算法創新,能夠帶來更大的經濟效益,更具可行性和持續性。擁有大規模算力條件的參賽選手,可能更容易取得優異的排名成績,但這與“創新”和“公平”的初衷相違背。最終的比拼變成了誰掌握了更多的計算資源,而不是誰在算法層面誕生了更多突破性想法,而且,這樣得到的算法模型通常在實際生產環境中可用性也較低。因此,在云端的競賽環境、研發環境成為了重要的支撐。云端統一競賽環境的另外一層作用在于便捷的成果管理。特別是在進行團隊協作時,如本地開發環境或工具版本不統一,團隊成員間進行成果分享時則需要重新安裝和運維計算環境,費時費
53、力。在數據競賽中提供統一的計算環境使得開發代碼的分享、協作更加便捷,開發成果的復現效果也能夠得到平等地呈現,促進賽事成果的高效產出與有效落地。b. 嚴防作弊的公平公正競賽環境(1)采用多元機制打擊作弊行為投機的作弊行為和不合理的賽制規劃也會損傷賽事的公平性和選手的積極性,進而破壞競賽成果的有效性和真實價值,優質的數據競賽需要在反作弊機制方面進行有效的設計。通過限制參賽選手的提交次數,同時追蹤選手的提交行為可以有效解決刷分的問題。具體來說,可在競賽之初為每支參賽團隊的圖 4-6 雙榜反作弊機制數據來源:和鯨科技()經調研統計得出。引用請注明出處。答案提交動作配置專屬 token(計算機身份認證令
54、牌),從而方便追溯提交文件的來源。如某份答案文件的提交選手 ID 與其所屬團隊的提交 token 不一致,則有理由懷疑出現了竊取答案的情況,需要進行深入調查。雙榜機制在 Kaggle 等多個平臺和國際性賽事中得到了不斷應用和驗證,除了能應對刷分現象外,還對排行榜探查、過擬合等行為具有顯著的打擊效果。組織好一場數據競賽,重在能力建設27數據競賽,數字化創新的新模式23 A/B 榜 - 規避利用過擬合模型上分目前,A/B 榜是業內公認較為有效的防作弊手段之一,其借鑒了數據科學當中對模型進行交叉驗證的思路,為了防止模型在某個數據集上過擬合而失去必要的泛化性能。運用在比賽中,就是將數據集分別切分為對應
55、 A 榜和 B 榜的兩份,在不同階段陸續提供給參賽選手,以 B 榜的結果作為驗證和衡量模型實際表現的標尺。如果選手在先期的 A 榜階段過分追求分數表現而采用了與 A 榜數據集過擬合的模型,甚至人為手標答案,則會有在 B 榜階段遭遇成績下滑。 Public/Private 榜 - 升級機制,模型效果更有保障Public/Private 榜機制源來已久,經過多年的迭代和比賽的驗證成為了海內外賽事圈選手共同認可的評審機制參賽選手在比賽伊始便被授權使用全量數據集進行模型訓練,但實際上全量測試集已經被競賽運營平臺私下分割為了 Public 和Private 兩部分,但分割方式對外保密。后續在比賽進程中,
56、選手能夠看到的公開成績僅僅是基于 Public 部分測試集測評得出的結果,而屬于 Private 部分測試集的得分則會被記錄在后臺,并作為最終排名的依據。Public/Private 榜機制對 A/B 榜存在的一些問題進行了修正,在此機制下,全量數據集在比賽伊始就被公布,選手有充裕的時間研究和分析數據集的規律和數據特征的性質,從而構建出性能更加優越的算法模型。此外,由于選手并不知道 Public/Private 榜各自對應的測試集是如何分割的,為了追求分數表現而過擬合的情況也得以遏制,有更強大的動機來增強自己模型的泛化性能,使其更加貼近真實應用場景。A/B 榜存在的問題:B 榜測試數據在比賽靠
57、后階段才提供選手難以了解數據全貌,易在 A 榜上過擬合最終排名以 B 榜為準,為避免針對性調優、手標答案,B 榜階段窗口期只有 24-48 小時選手的參賽體驗遭到破壞4-7 雙榜反作弊機制數據來源:和鯨科技()經調研統計得出。引用請注明出處。28組織好一場數據競賽,重在能力建設(2)以嚴謹的成果審核作為雙重保險高度相似的成果文件背后可能是參賽選手間共享答案的不端行為,而這一作弊現象在提交答案文件 MD5(每份成果文件獨有的 128位散列值,用于確保信息傳輸的完整一致)相似度分析下則會被溯源。c. 參賽選手享有流暢的體驗閉環在數據競賽中, 參賽選手需要先后或多次經歷報名組隊、 數據獲取、賽題解決
58、、成果提交與評分幾個重要環節。優質的數據競賽在制定比賽規則時應綜合考慮初賽、復賽、決賽等每個階段的里程碑目標、持續時長和晉級要求應如何設定。競賽運營平臺自身亦需要充分發揮數據的價值,結合過往辦賽經驗,針對不同的賽題類型與配套技術的發展程度、參賽規模、成本限制等多方面因素,從而對比賽規則設計思路進行持續的迭代,以此滿足在多元競賽需求下的賽事公平性。在此基礎上,通過設計流暢的選手體驗閉環使得選手的生產力得到更高效、更專注的釋放。(1)報名組隊 競賽信息獲?。焊傎愴撁鎸愂卤尘?、賽程規劃、賽題要求、圖 4-8 全流程保障賽事環境的公平性數據來源:和鯨科技()經調研統計得出。引用請注明出處。在答案文件
59、之外的另外一重保障是要求參賽選手提交模型代碼。一方面便于從包含數據特征處理、特征構造、訓練策略在內的多個方面進行代碼相似度對比,考察選手是否不正當地使用了他人的代碼,另一方面也可人工審核代碼并復現。競賽數據、測評機制、獎勵安排、參賽須知、參賽者權益說明等競賽基本信息具有清晰的結構呈現、準確的語言表述; 報名組隊:具有明確、快捷的報名組隊操作功能,同時能夠快速索引潛在的組隊成員,并與之直接在競賽平臺上進行即時交流或發送組隊邀約。(2)數據獲取 競賽數據與賽題內容高度契合,能夠支撐賽題的可解性; 競賽數據處理完備、字段完整、信息準確; 訓練集和測試集的切分科學合理; 競賽頁面對數據情況有準確到位的
60、描述,并提供數據及字段樣例供選手參考;組織好一場數據競賽,重在能力建設29圖 4-9 參賽選手的重要體驗環節數據來源:和鯨科技()經調研統計得出。引用請注明出處。 具有專屬的競賽數據分發方式,便于選手高效獲取。一般數據規模較大的競賽都會直接將數據掛載在統一的云端競賽環境中,選手無需費時下載,可通過在線且體驗良好的數據科學協同平臺直接讀取并使用。(3)賽題解決 賽題解決有賴于團隊成員間的密切配合和高效協作,配置能夠突破本地環境限制的數據科學協同平臺和合理的計算資源將可以大幅提升參賽選手的解題效率,從而為優質成果的誕生奠定基礎; 以在數據競賽環境中的 KaggleKernels 為例,這個可在瀏覽
61、器中直接運行的交互式編程筆記本,能夠快速線上調用 Kaggle平臺上數千個數據集,通過適配谷歌云服務和預裝必要的工具包,保證所有參賽選手無需受限于本地配置環境即可在統一的環境中進行成果開發; 優質的數據競賽對于在線數據科學協同平臺與計算資源的具體要求將在下一小節中展開詳述。(4)成果提交與評分 提交頁面配備了清晰的提交指引、詳細的評審算法與評審機制說明; 成果文件能夠快速上傳至競賽系統,且能夠即時得到清晰明確的報錯信息反饋,如在競賽系統中內置格式檢查工具,對選手提交的成果文件進行自動化的格式檢查并給出反饋; 競賽涉及多種類型的技術問題,因此也需要支持多種格式和大小的成果文件,如對于較大的文件,
62、最好可提供特定的提交工具支持斷點續傳,從而不會發生網絡環境不穩定導致的多次提交不成功的挫敗感; 得分反饋:競賽系統配備科學合理的自動測評算法,能夠盡快運行、即時出分,同時提供清晰合理的反饋說明。30組織好一場數據競賽,重在能力建設d. 即時高效的賽程運營管理與服務響應作為整合資源的角色,賽程運營管理連接起了數據競賽主辦方、賽事運營平臺內部團隊、參賽選手、計算資源供應商、外部媒體等一系列利益相關方,來推動賽事按預期計劃平穩前進。賽程運營管理人員需要具備復雜任務的多線程處理能力和溝通協調能力,以專業的規范標準為賽事主辦方和參賽選手雙邊提供即時、穩定、優質的服務,促進雙邊的共贏協作,協調內部資源高效
63、解決賽程中存在的各項問題,并對可能存在的各項風險進行充分的預判和提出解決方案。面向賽事主辦方,賽程運營管理人員主要負責收集確認其需求,拆解、轉譯成分子需求,并分配給競賽項目小組的相關成員執行具體的實施工作,并在此過程中與主辦方保持緊密的溝通匯報,保證產出與其需求的一致性。內容包括但不限于: 在賽前協調品牌營銷人員負責賽事形象的整體設計和賽事的宣傳推廣; 統籌需求分析、數據科學服務、競賽產品各職能相關負責人員和計算資源供應商按約按時、保質保量提供服務; 在賽中對階段性的進展與成果向賽事主辦方定期進行同步匯報; 在賽后及時整理和移交競賽成果,促進順利結項; 貫穿競賽全生命周期的成本管理、質量監控的
64、風險防范。面向參賽選手,賽程運營管理人員需要主動將賽程各階段的信息進行及時的同步傳達,幫助賽事主辦方在選手群體中樹立并傳播良好的品牌形象,同時通過積極的溝通加強選手對賽題的理解和研發的積極性。另外,賽程運營管理人員也要對選手在參賽過程中遇到的疑惑和問題保持高度關注,提供及時的解答和處理,對可能發生甚至已經出現的輿論爭議進行及時疏導,并適時組織有助于提升賽事質量和體驗的調研活動。圖 4-10 賽事運營平臺需要在賽事主辦方和參賽選手間進行高效的信息和價值傳遞數據來源:和鯨科技()經調研統計得出。引用請注明出處。組織好一場數據競賽,重在能力建設31案例特寫:中國高校計算機大賽大數據挑戰賽預選賽聚焦優
65、質選手、分流辦賽壓力賽事主辦方:教育部 2018 年中國高校計算機大賽大數據挑戰賽參賽人數突破 3000 人,2019 年的規模將更為盛大,運營壓力和成本壓力陡增。廣大選手雖技術水平不可同一而論,但也都希望借由這次寶貴的機會得到鍛煉。為了平衡各方訴求,2019 年的賽制在2018年的基礎上進行了優化, 在正式賽程上線前舉辦預選賽, 利用公開數據集出具與正式賽題相關但難度更小的 “文本情感分類”賽題。如此一來,新手們能夠得到充分的練習和交流,預選賽設置的評分規則也能選拔出能力更突出的選手進入正式賽程環節,實現聚焦和限流的作用。掃描上方二維碼了解更多賽事詳情案例特寫:同盾科技聲紋識別建模大賽訓練營
66、克服專業壁壘,提升賽績表現賽事主辦方:同盾科技 受制于真實應用場景下的復雜情形和算力限制等因素,語音識別目前仍面臨著許多技術瓶頸。在籌辦同盾科技聲紋識別建模大賽時,考慮到該賽題技術難度偏大、細分領域人才偏少,可能出現競賽參與度低、競賽成果不達預期等潛在風險。因此,賽事運營平臺設置了訓練營作為賽前先鋒,在有充裕時間醞釀賽事影響力,吸引更多關注參與的同時,采取公開報名和免費參加的形式為意向參賽選手提供語音深度學習相關的知識培訓,由專業的科研學者提供指導,以實踐任務的方式指導和啟發學員解鎖部分聲紋識別的技術難點。訓練營上線后迅速吸引了大量數據人才的關注,并為后續賽事運營的順利推進奠定了良好的基礎。最
67、終產出了工業級水平的競賽成果。掃描上方二維碼了解更多賽事詳情e. 通過豐富的賽制設計優化競賽體驗在實際的數據競賽中,時常會出現一些意料之外的情況,需要具有靈活的應變能力。比如賽題內容所牽涉的行業場景過于細分或前沿,行業知識的缺失會導致技術能力難以施展。以 PLAGH-MIT 醫療大數據 Datathon 為例,活動正式開始前,組委會通過提供線上講座、視頻課程、跨學科交流來幫助潛在參賽選手學習如何更好地理解和分析醫療數據,加強醫務工作者和數據科學家之間的溝通協作。同時,在正式開賽前預置訓練營則也能夠通過邀請賽題領域內的資深人才提供競賽基準模型(Baseline),為潛在選手提供指導借鑒和思路啟發
68、。32組織好一場數據競賽,重在能力建設組織好一場數據競賽,重在能力建設33f. 以產品化功能賦能賽事體驗(1)提升效率的在線數據科學協同平臺數據競賽作為數據科學研發的敏捷型項目,在該環境下配置數據科學協同平臺和云計算資源 , 不僅能夠保障賽事體驗的各項功能需求,也是對實際數據科學研發與協作的一次真實演練。通過高效打通數據團隊管理者、 算法模型研發工程師、 數據分析師、業務應用人員,搭載了云計算資源的數據科學協同平臺,深度參與了從任務管理、模型開發、成果管理到業務應用的數據項目全生命周期管理,可滿足數據科學家、人工智能工程師、商業分析師等數據科學工作者在線完成算法建模、數據分析與可視化、結果輸出
69、等任務,并支持私有化部署和云端協同,幫助企業、高校、科研機構開展工業級數據科學應用與 AI 研發。優質的數據競賽正需要具備如下各項功能的數據科學協同平臺來確保數據科學項目的健康推進,最終的開發成果可被復現。 集成體驗良好、統一的云端開發環境,提供開箱即用的計算環境,無需繁瑣的硬件部署和運維; 配置豐富的編程語言工具包和 (如Pandas、 Numpy、 Scipy等) 、機器學習框架(如 Scikit-Learn、Tensorflow、PyTorch 等)、圖 4-11 數據科學開發工具數據來源:和鯨科技()經調研統計得出。引用請注明出處。以及常用的分析代碼片段和自定義代碼庫,方便隨時調用和日
70、后復用; 用戶可以在計算環境中自行安裝額外所需的工具,并可持續復用,成為自定義的鏡像環境; 競賽運營人員可直接按照工具內提前規劃的操作要求和指引,在賽前完成數據及資源的掛載、部署,同時便捷地進行版本管理,亦可方便參賽選手無須耗時將數據下載至本地。 參賽隊友之間能夠實現代碼文件的一鍵分享、評論和協作編輯,降低協作門檻; 能夠對不同版本的開發策略和代碼進行敏捷的效果試驗,更高效地管理工作成果; 為選手提供統一充分的算力,資源全面支持 AWS、阿里云、騰訊云等國內外各大主流云廠商,根據競賽需求進行靈活彈性的跨云或混合調度; 成果的提交工具與競賽系統無縫銜接,在提交處查看歷史提交成績與對應文件,把握每
71、次提交的試驗效果,為優化開發提供指導性反饋。(2)提升效率的在線數據科學協同平臺數據競賽具有較強的技術專業性,需要專業的數據科學方法為主辦方提供有保障、可預期的支撐服務,競賽運營方也需要最大化主辦方的參與度,打造透明的競賽環境。這關系到賽事主辦方對于數據競賽價值的信任,也能幫助賽事主辦方通過數據競賽感受數據科學研發過程、積累數據科學研發的管理經驗和能力。為了實現多元化的運營目標與管理目標,打造一款具有完善功能的競賽系統則成為了優質數據競賽的標配: 競賽流程管理提供一站式的競賽信息管理功能,賽事管理員可根據賽制規劃配置比賽基本信息描述、時間階段劃分、成果測評代碼等。同時也可對比賽過程中產生的所有
72、數據、報名信息和提交記錄等隨時進行調取查看;賽事管理員可根據賽制要求差異化定制多輪提交、多文件提交等多項延展性功能。 客觀評審在競賽系統內預置 A/B 榜、Private/Public 榜等仿作弊機制,賽事管理者可在管理后臺直接調用;圖 4-12 數據科學開發工具與競賽系統的配合效果除支持競賽管理員使用自定義配置評審腳本和答案文件外,競賽系統內能夠預置常見的評審指標,并配有完整的使用說明;競賽管理員可直接在競賽系統后臺上傳待測試的提交文件,來直接對當前的評審配置進行內部測試操作;支持多種格式和大小的成果文件,包括表格數據、圖像甚至視頻文件的自動測評,因此需要具有較強的負載能力;競賽系統亦可根據
73、評審負載彈性伸縮資源池,根據評審腳本運行時間、同時參與評審人數和提交文件的大小等維度自動計算評審復雜度并匹配相應的計算資源數。 主觀評審評委和競賽管理員可直接查看選手提交的完整代碼及對應的客觀評審得分,并一鍵復現選手成果;競賽管理員可自行決定參賽成果的評委分配,并自主設計評分維度和規則。如可支持隨機分組、集體評審的方式進行合理評審,或根據評委背景分成不同的評審組,并設置不同評審緯度和指標,最終對不同組評審成績進行匯總。數據來源:和鯨科技()經調研統計得出。引用請注明出處。Notebook34組織好一場數據競賽,重在能力建設組織好一場數據競賽,重在能力建設35g. 解決賽事主辦方后顧之憂的數據安
74、全保障(1)數據脫敏在通過數據脫敏來解決數據安全的問題時,需要嚴格評估在賽題要求下敏感數據是否具備使用價值,對于無建模價值的敏感數據會直接在數據采集階段予以剔除。之后的脫敏處理要遵循兩個原則:一是脫敏前后數據格式類型不變,二是脫敏不能改變數據的分布。這樣才能夠保證脫敏后的數據在實際比賽當中仍能保留足夠的建模價值、在實際場景也能發揮應用潛能。而在此基礎上還要考慮,能在盡可能少的隨機性前提下完全隱藏相關的信息,規避參賽選手逆向還原脫敏數據的現象。(2)數據泄露部署了數據科學協同平臺和計算資源的云端競賽環境將數據掛載在工具內, 競賽一旦結束, 數據自動下線, 具有數據安全的保障性。為了進一步嚴控數據
75、被下載至本地、避免數據泄露,數據科學協同平臺可以考慮兩種不同級別的方案來克服多數機構和企業既想投身于數據競賽的創新探索、卻又擔心數據泄漏的顧慮。 監測限制下載流量在限制開發工具的下載流量并對其進行實時監測的條件下,要將開發工具中掛載的數據集下載至本地需要耗費參賽選手大量時間,在數月的競賽全周期內最多只能完成不足 5% 的競賽數據下載,對于選手而言成本高昂。與此同時,競賽選手依然能夠順暢、自由地向開發工具中安裝所需工具包,正常的競賽體驗和開發工作不會受到影響。 斷網安全屋斷網安全屋的方案對于數據安全的保護更為嚴格通過網絡控制功能限制所有對外對內的訪問流量,如此一來,選手便完全喪失了下載數據的可能
76、性。而為了保障正常的參賽體驗,該方案又可以在斷網條件下提供特殊訪問通道的白名單功能,配置域名或IP地址,通過固定出入口的放行使得參賽選手能夠安裝必備工具。圖 4-13 數據安全屋原理示意數據來源:和鯨科技()經調研統計得出。引用請注明出處。案例特寫:快手 - 用戶興趣建模大賽數據脫敏保障數據安全的同時緩解數據存儲壓力賽事主辦方:快手 內容生產和分發是短視頻發展的兩大關鍵要素。在快手,每天都有數以億計的視頻被播放、被上傳、被轉發,服務器需要在轉瞬間處理海量信息與內容,過多的違規內容會擠壓內容生產者的流量,而匹配不精準的內容推薦也是對資源的巨大浪費。在有限的時間內,僅僅依靠人力顯然無法高效完成對視
77、頻內容的識別、理解,以及對海量用戶的精準推薦??梢哉f,人工智能算法的應用對于快手保持互聯網領先身位具有非常重要的作用,因此,快手努力推動著人工智能的創新探索與數據科學的商業應用??焓衷?2018 年舉辦的用戶興趣建模大賽中,要求參賽選手開發基于視頻內容理解的推薦算法,預測用戶點擊某視頻內容的概率。然而,規模巨大的視頻數據在競賽環境中帶來了較大的數據存儲和算力壓力。而利用常用的預訓練視覺模型,將中間層的參數輸出作為原圖像的脫敏數據,則能夠有效解決這一問題。舉例來說,下圖中的(a)為視頻某一幀圖像的原始狀態,能夠清晰地看到是一個行走中的人。而(b)是提取了圖像中行人的身形輪廓特征,(d)(e)則提
78、取了圖像中行人的諸如眼睛、鼻子、下巴等局部特征。通過提取預訓練模型的前幾層輸出,實現了對原始視頻的規模降級和脫敏處理,但依然能夠判斷出圖像的主體是一個人。而在更高的數據安全要求下,還可再進一步作數據脫敏??蓪㈩A訓練模型的倒數第二層輸出作為原圖像的脫敏數據,則數據文件大小在進一步降低的同時,也完全無法復原,從而使參賽選手無法知道圖像的直觀內容,以此實現對圖像內容的盡可能保密,既緩解了數據壓力,提升了參賽選手的開發效率,還在一定程度上保護了原始視頻的私密性。掃描上方二維碼了解更多賽事詳情36組織好一場數據競賽,重在能力建設h. 促進人才沉淀的社區運營數據競賽具有天然的社區效應,越來越多數據科學人才
79、選擇參賽以實踐理論技能,并在過程中進行持續的協作、交流和討論,形成了具有專業屬性的社區雛形。以全球最大的數據競賽平臺 Kaggle 為例,作為全球最大的數據科學人才社區,在與不同機構組織合作舉辦數據競賽之外,Kaggle 還以數據集、開源代碼項目分享等豐富的內容吸引人才匯集,在其數據科學的成長發展之路上不斷進行助力和賦能,從而使得海量處于不同成長階段的專業人才均對其產生了強大的粘性。數據科學社區集聚的人才來自不同行業不同職能,能夠及時響應復雜多元的競賽需求,充分輸出“數據 +”的洞察,為數據競賽的成功舉辦提供了復合能力的全方位支持?;钴S的互動交流也在社區上不斷沉淀著技術先進、應用成熟的真實案例
80、,突破固有認知的創新源源不斷地發生,進而為數據競賽基礎上的數字化創新提供了底層支持。Kaggle圖 4-14 賽事運營平臺需要在賽事主辦方和參賽選手間進行高效的信息和價值傳遞數據來源:和鯨科技()經調研統計得出。引用請注明出處。組織好一場數據競賽,重在能力建設37第五章數據科學驅動的創新生態展望數據來源:和鯨科技()制作。引用請注明出處。打通企、 研、 學、 政各主體之間溝通協作的渠道, 建立開放共享、 合作共贏、 技術驅動的數據科學創新生態體系培養數據科學研發和項目管理核心能力實現資源在各利益群體之間的流通探索數據創新方向, 嘗試數據和技術的落地應用方案數據競賽圖 5-1 以數據競賽為起點促
81、進創新的螺旋上升數據科學驅動的創新生態展望39在數據科學生態中,“數據 + 算力 + 人才 + 場景 + 算法”各環節之間需要具有緊密的連接和互動,但這個過程充滿了不確定性??梢钥吹?,數據競賽可模擬、可考核,且過程及成果可見,同時風險與成本高度可控,能夠串聯起數據科學生態鏈上的各類參與者,為各方提供協作的標準界面與有效激勵。數據應用到達成熟期還有很長的一段路要走,數據競賽作為數據科學研發的敏捷版和演兵場,在積累數據科學項目管理能力、和檢驗算法落地效果的同時,也為數字化創新的探索帶來了更大的想象空間。伴隨著高校數據科學教學體系的建設,數據競賽開始融入教學、實踐等衍生功能,數據科學協同平臺也需要隨
82、之發展出更豐富的“教學研練用”一體化功能集成豐富的課程課件、數據集或者外部筆記等內容,并實現不同用戶間的共享和交互;將評審功能嵌入對于學生作業的管理中,預設常用測評指標對作業的模型效果提供全自動計分排名,解放老師的生產力;同時,對接貼近企業實際場景的項目課題與數據集, 方便學生直接進行實踐演練,真正實現產學結合。伴隨著通信技術的發展核心基礎設施,“5G+ 混合云”的組合方式既能有效提升數據計算能力和傳輸效率,集中更大規模的數據資源,為“數據驅動”奠定基礎。經由數據競賽打磨出的數據科學協同平臺也將緊跟這一發展趨勢,在發展“數據驅動”、“數字化創新”的背景下,為未來的數據科學研發與協作提供底層工具
83、支持。數據競賽引發了“產學研政資”對于數字化創新的共同關注,集合學術、人才、獎金和政策等全方位的資源支持,創造更加適宜的發展環境。同時,也能夠通過各界的開放式協作、開放式創新,發現制約數字化創新效率的因素,落地改進方案。數據競賽的創新價值正在得到更加廣泛的認可,加速推動前沿數據技術的發展與產業應用的結合,在數據化、云端化、智能化的趨勢下,賦能新一代的數據人才實現更大的產業價值,匯聚成產業數字化升級的強大動力。作為數據科學項目的縮影,數據競賽正在幫助多個行業實現人工智能、數據驅動的落地與創新探索。據不完全統計,2014 年開始,全球賽事超 1000 場,僅中國的競賽場次年均增長達 108.8%,
84、累計超 120 萬人次參加,獎金累計達到 2.8 億人民幣?!皵祿傎悺币呀洺尸F出了獨特的技術價值、 業務價值和創新價值, 等待著產業、學界、政府機構去進一步發現和運用。為什么這么多企業與機構在辦數據競賽?數據競賽覆蓋到了國內外各行各業中的哪些場景?為什么“數據競賽”被視為數字化轉型與創新的敏捷形態?在數據競賽白皮書上篇中,和鯨科技通過 1000 余份問卷調研、幾十位行業專家及企業辦賽負責人的訪談、超過 1200 小時的分析研究,為你全面展示,在全球范圍內數據競賽的發展現狀,以及數據競賽在四大賽事主體數字化創新中的價值。數據競賽白皮書上篇1000 場競賽的深度分析更多精彩內容請關注掃碼關注“和
85、鯨”公眾號回復“數據競賽白皮書”獲取數據科學驅動的創新生態展望4040數據科學驅動的創新生態展望附錄1LinkedIn,全球 AI 領域人才報告,2017 年 7 月2麥肯錫全球研究院,數字時代的中國:打造具有全球競爭力的新經濟,2017 年 12 月3阿里研究院,人工智能在電子商務行業的應用和對就業影響,2018 年 8 月4清華大學,云計算和人工智能產業應用白皮書,2018 年 9 月5麻省理工學院,麻省理工科技評論,2019 年 2 月6普華永道,數字化工廠 2020:塑造制造業的新未來,2018 年 2 月7WIPO,2019 人工智能技術趨勢展望,2019 年 3 月8Gartner
86、,Top10StrategicTechnologyTrendsfor2019:AI-DrivenDevelopment,2019 年 3 月9IEC,ArtificialIntelligenceacrossindustries,2019 年 3 月10億歐智庫,2019 年中國云計算行業發展研究報告,2019 年 3 月11德勤,2019 技術趨勢報告:超越數字化,2019 年 3 月12騰訊云,產業互聯網:構建智能 + 時代數字生態新圖景,2019 年 3 月13Gartner,ChinaSummaryTranslation:Predicts2019:ArtificialIntelligen
87、ceCoreTechnologies,2019 年 5 月14劍橋大學,2019 年度 AI 全景報告,2019 年 6 月15云計算開源產業聯盟,2019 年云計算與邊緣計算協同九大應用場景,2019 年 6 月16阿里云,人工智能應用實踐與趨勢,2019 年 8 月17騰訊研究院,汽車行業云戰略及商業模式研究報告,2019 年 9 月18埃森哲,2019 年埃森哲中國企業數字轉型指數研究,2019 年 9 月19德勤,中國創新生態發展報告 2019,2019 年 9 月20信通院,2019 全球數字經濟新圖景,2019 年 10 月參考文獻附錄41大數據系統軟件國家工程實驗室簡介大數據系統
88、軟件國家工程實驗室以創新驅動發展和自主安全可控為使命,以國家“十三五”規劃為指導,面向重點領域和重大工程需求,建設大數據系統軟件技術創新研發、技術轉化和應用示范平臺,支撐大規模多源異構數據一體化管理、交互式異構數據分析框架、數據可視化與智能數據工程、領域大數據應用開發運行環境、大數據混源軟件可信驗證等技術的研發和工程化。實驗室將打造產學研用一體化的體系,研發一系列國際先進、國內領先的大數據系統軟件核心技術與產品,突破創新驅動產業轉型升級以及關鍵領域自主可控中的技術瓶頸,探索大數據系統軟件應用實施的工程方法,建設國際一流、開放協同的產學研用大數據系統軟件技術創新團隊。與公安部一所、沈陽消防研究所
89、、國家氣象中心、環保部信息中心、北京工業大數據創新中心、中國農科院等重點應用單位建立合作關系,支撐政府治理、公共服務、工業和新興產業、現代農業等國家重大戰略方向的大數據應用,增強對國家重點工程的大數據應用的保障能力。工程實驗室擬由清華大學為承擔單位,北京理工大學為參與單位,聯合國防科技大學、中山大學、北京百度網訊科技有限公司、騰訊云計算(北京)有限責任公司、北京大學、中國人民大學、阿里巴巴集團云計算有限公司等單位共同建設。清華大學是教育部直屬重點綜合性大學,建有清華信息科學與技術國家實驗室(籌)、企業信息化支撐軟件國家工程技術研究中心等國家級創新平臺, 在該領域擁有中國科學院與工程院院士8人,
90、 “千人計劃”、“長江學者”、國家杰青等共 6 人。近 5 年,承擔國家重點研發計劃、國家核高基重大專項等科研項目 30 余項,曾獲國家技術發明二等獎 1 項、國家科學技術進步二等獎 1 項,獲得國家發明專利授權 25 項,編制標準 7 項。北京理工大學是工業和信息化部直屬重點綜合性大學,建有復雜系統智能控制與決策國家重點實驗室,在該領域擁有中國科學院院士 1 人,國家杰青 1 人。鑒此,清華大學聯合北京理工大學等基本具備了承擔大數據系統軟件國家工程實驗室建設的能力。大數據系統軟件國家工程實驗室首頁42附錄附錄43和鯨科技簡介和鯨科技(運營主體為“上海和今信息科技有限公司”)2015 年創始于
91、上海,是中國領先的“數據科學協同平臺”供應商,以“connectpeoplewithdata”為使命,專注于挖掘商業數據和數據人才的價值。旗下擁有連接 30 萬數據人才的第三方數據科學社區和鯨社區(即 K,原“科賽網”),具備國際領先水平的數據科學協同平臺KesciLab(簡稱“K-Lab”)。和鯨科技是愛分析評選的 2019“中國數據智能創新企業 50 強”,AWS 高級技術合作伙伴,同盾科技、Talkingdata、Udacity 戰略合作伙伴,并獲得了國內一線 AI、數據領域投資機構 10fund 和線性資本的 PreA輪投資,晨興資本的 A 輪投資。創始人范向偉入選由美國福布斯雜志發布
92、的第三屆“30under30”科技榜單。 數據科學協同平臺 K-LabK-Lab 是和鯨科技自研發的一款云原生“數據科學協同平臺”產品,可滿足數據科學家、人工智能工程師、商業分析師等數據工作者在線完成分類、建模、分析、可視化、結果輸出等任務,其優秀的用戶體驗和產品口碑,贏得了包括了清華大學、南開大學、同濟大學、中國醫學科學院、中國電信、中國銀聯、中國電科等在內的國內頂尖機構的認可。和鯨 K-Lab 不僅實現了組織內部技術人員和業務人員的實時協同工作,更支撐了跨地域、跨組織的協同場景,允許企業以更低的成本、更大的彈性、更強的安全性,調用組織外部的工程師、分析師和科學家。 數據科學社區 K和鯨社區
93、,數據科學家的專業社區,在用戶數、用戶質量、活躍度方面均有出色表現。與中國聯通、中國平安、招商銀行、騰訊、百度、字節跳動、攜程、IBM、華為、默克中國、南京市人民政府、深圳市人民政府、鵬城實驗室等頭部企業與機構合作,通過開放競賽的機制和數據科學的手段,解決各個行業的業務難題。在 K-Lab的賦能下,和鯨社區成為了企業可按需調用的生產力和創新力。數據科學協同平臺和鯨社區競賽頁面K-Lab 介紹頁AWS 簡介自2006年初起,亞馬遜開始在云中為各種規模的公司提供技術服務平臺。利用AWS服務,軟件開發人員可以輕松購買計算、存儲、數據庫和其他基于Internet的服務來支持其應用程序。開發人員能夠靈活
94、選擇任何開發平臺或編程環境,以便于其嘗試解決問題。由于開發人員只需按使用量付費,無需前期資本支出,AWS服務是向最終用戶交付計算資源、保存的數據和其他應用程序的一種最經濟劃算的方式。44附錄附錄45本數據集是對白皮書中所采用相關數據的抽取,包含了 2014 年至今,中國競賽市場的 400 道賽題與 Kaggle平臺中的 172 道賽題。數據集來自于各大數據競賽平臺網站及數據競賽官方頁面,包含平臺類型、比賽內容、應用行業、獎金池、客戶行業等 11 個維度的字段,共覆蓋 33 類應用場景、34 類主辦方背景及六大類技術類型。本數據集隨白皮書對外開放,我們鼓勵對數據競賽模式的進一步分析與分享。和鯨調
95、研參與者畫像掃描右側二維碼,獲取本白皮書所采用的“數據競賽數據集”獨家云計算合作伙伴:AWS學術指導單位:大數據系統軟件國家工程實驗室獨家數據科學媒體:deardata南京市人民政府深圳市人民政府深圳市科技創新委員會新一代人工智能產業技術創新戰略聯盟(AITISA)鵬城實驗室中國人民解放軍總醫院(醫療大數據應用技術國家工程實驗室、醫學工程保障中心)中電萊斯信息系統有限公司中國銀聯合作伙伴與特別鳴謝重要聲明本報告數據來源于和鯨科技(運營主體為“上海和今信息科技有限公司”)的調研與搜集,所載觀點、意見、推測僅反映發布報告當日的判斷。報告中的內容和意見僅供參考,和鯨科技不對因使用本報告內容而引致的損
96、失承擔任何責任。本報告版權歸和鯨科技所有,并對報告內容保留一切權利,未經書面許可,任何機構和個人不得以任何形式翻版、復制、發表或引用本報告的任何部分。如征得和鯨科技同意進行引用、發表的,需在允許的范圍之內,并注明出處為“和鯨科技數據競賽白皮書”,不得對本報告進行任何有悖原意的引用、刪節和修改,否則由此造成的一切不良后果及法律責任由私自翻版、復制、刊登、轉載和引用者承擔。* 排名不分先后46附錄附錄47編委:編撰團隊(*排名不分先后,以拼音首字母排序)設計團隊(*排名不分先后,以拼音首字母排序)路士瑤曹帥劉宇杰雷林許彤朱羿霖行業領導團隊范向偉郵箱:單清遠郵箱:王建強郵箱:特別顧問劉強清華大學軟件學院特別支持(*排名不分先后,以拼音首字母排序)劉昊天劉雨亭邱月青