《亞馬遜云科技中國:亞馬遜云科技客戶案例集錦(17頁).pdf》由會員分享,可在線閱讀,更多相關《亞馬遜云科技中國:亞馬遜云科技客戶案例集錦(17頁).pdf(17頁珍藏版)》請在三個皮匠報告上搜索。
1、亞馬遜云科技客戶案例集錦亞馬遜云科技客戶案例集錦亞馬遜云科技中國(寧夏)區域西云數據運營亞馬遜云科技中國(北京)區域西云數據運營云馭 科研云馭 科研1357911強大算力支持 中科院計算所致勝國際計算機視覺賽事攻堅生命科學研究的核心上海交大利用亞馬遜云科技云計算加快虛擬藥物篩選亞馬遜云科技云計算助力華南理工大學廣州學院實現智能垃圾分類遙感數據源、巨大算力、人工智能加持亞馬遜云科技攜手清華大學快速打造云上遙感科研新范式以彈性算力和快速部署為抓手南方科技大學區塊鏈分片項目高效落地亞馬遜云計算聯合北京智源人工智能研究院有力支持國際小分子制藥性質預測大賽亞馬遜云科技計算和對象存儲優勢助力浙江大學微生物
2、學研究更上一層樓14目錄 將虛擬環境的數據平穩遷移到真實環境中01 深度學習面臨的挑戰17_信泰宜合(Syntax)基于 AWS 構建 ERP 全托“我們主要使用了 Amazon Web Services里面的 EC2 計算資源和 S3 存儲功能。EC2 主要是用 GPU 做深度學習模型訓練,主要使用的實例是 g4dn 系列,g4dn.2xlarge 用來調試程序,g4dn.12xlarge 主要用來訓練模型。我們用于訓練的數據和最終得到的模型都保存在 S3 上,從 EC2 向 S3 調用數據是免費的而且速度很快?!鄙疃葘W習讓基于圖像的場景理解獲得了明顯提升,在檢測、分割、跟蹤等領域取得的巨大
3、的進步。這些場景理解大都基于是被動接受的靜態圖像數據,而我們研究場景理解的目標之一,是讓機器人能夠通過場景理解完成高層任務。這一過程是主動的、動態的。Visual Semantic Navigation 是該類任務之一。機器人隨機出現在公寓中的某個位置,給定一個目標(如找蘋果),期望機器人通過自身的 RGB 攝像頭自主采取決策導航到指定物體附近。在真實環境中靠機器人采集的數據進行訓練是不現實的,因此 Visual Semantic Navigation 任務會在虛擬環境中進行訓練并在真實場景測試。該任務的難點之一在于如何將虛擬環境學到的知識遷移到真實環境中,為此在方法上提取了圖像的多種中間表示
4、,并以此減少虛擬環境和真實環境的裂隙。大量的計算需求需要強大的計算資源支持在具體實現上,面臨的難點是巨大的計算需求。在訓練過程中,機器人會不斷在虛擬環境中移動并產生大量圖像觀測數據,算法從圖像數據中提取特征并結合當前任務作出機器人的動作規劃。該過程會不斷重復,因此需要極大的計算資源支撐。亞馬遜云計算強大的算力剛好可以解決計算資源不足的問題。同時,為了實驗探索不同的方法對導航性能的影響,需要同時進行多組對比實驗,得益于亞馬遜云科技的彈性計算能力,中科院計算所可以在短時間內開啟大量機器進行對比實驗,幫助研究順利進行。武曉東博士,中科院計算所云馭 科研|強大算力支持 中科院計算所致勝國際計算機視覺賽
5、事近年來,隨著深度學習技術的發展,常規場景下類別與訓練樣本數量固定的物體識別任務取得了長足發展,新型的模擬人類持續學習(Continual Learning)機制的增量物體識別任務逐漸受到計算機視覺領域學者的關注。2020 年,中科院計算所的視覺信息處理與學習研究組(VIPL)在 Amazon Web Services 的支持下參加了由 IEEE 舉辦的 IEEE CVPR2020 Workshop on Continual Learning(CLVISION)增量學習競賽和 RoboTHOR 2020 Challenge 競賽。VIPL在國家自然科學基金重大項目、科技部 973 項目等支持下
6、,課題組立足于視覺模態信息的智能感知與認知理論方法的研究,實現對真實開放環境下自然場景的智能感知與理解。圍繞圖像視頻分析與理解這一主題,針對圖像視頻檢索、物體檢測/識別、場景理解、場景關系建模、語義描述與問答等前沿核心問題進行布局,構建具有自主學習、動態更新機制的視覺概念庫平臺系統,致力于實現視覺智能從感知任務到認知任務的邁進。CVPR全稱 IEEE 國際計算機視覺與模式識別會議,在計算機視覺領域是和 ICCV、ECCV 并稱的三大頂尖會議,被中國計算機學會 CCF 推薦為 A 類會議。CVPR 是 IEEE 一年一度的學術性會議,2020 年原定于西雅圖舉辦。1.VIPL 在 CLVISIO
7、N 競賽 NI 賽道中獲得了第一名,其中算法在三個賽道的測試集準確率在所有參賽隊伍中均為最高。在 RoboTHOR 2020 Challenge 競賽中取得了第二名的好成績。王瑞平教授,中科院計算所04 獲得的成效 參加比賽需要相比平時更多的算力,但是如果單獨為了比賽就重新購買硬件需要經過非常長的流程,且硬件本身的開銷和后續的維護都是一筆不小的投入。云計算的優勢是客戶無需自行購買硬件并進行維護,可以按需使用、按量付費;此外,Amazon S3 上傳數據是免費的,從 Amazon EC2 調用數據也是免費的。02 為什么選擇亞馬遜云科技為什么選擇亞馬遜云科技?中科院計算所視覺信息處理與學習研究小
8、組與本地 IDC 進行比較后,最終選擇亞馬遜云科技的主要原因包括兩個方面:亞馬遜云科技提供了低成本的彈性使用服務、亞馬遜云科技可以隨時提供巨大的算力。低成本的彈性使用服務中科院計算所既有亞馬遜云科技云服務的加持,無需走冗長的審批流程購置硬件并進行維護,又有亞馬遜云科技對市面主流機器學習框架的良好支持,比如這次 VIPL 視覺信息處理與學習小組使用的 Tensorflow。擁有強計算機背景的成員在很短的時間內就完成了亞馬遜云科技上的配置并進行運算。亞馬遜云科技不僅支持 Tensorflow,還專門對其進行優化,以確保能夠在云上發揮出最大性能;亞馬遜云科技的 Sagemaker 功能也可以更加方便
9、地集中調用計算資源,加快機器學習進度。03 使用了亞馬遜云科技哪些產品?03 使用了亞馬遜云科技哪些產品?隨時提供巨大的算力Amazon Elastic Compute Cloud(Amazon EC2)是一種 Web 服務,可以在云中提供安全并且可調整大小的計算容量。該服務旨在讓開發人員能夠更輕松地進行 Web 規模的云計算。Amazon EC2 的 Web 服務接口非常簡單,可以以最小的阻力輕松獲取和配置容量。該服務可以完全控制計算資源,并可在成熟的 Amazon 計算環境中運行。此次競賽,中科院計算所主要用 GPU 做深度學習模型訓練,用g4dn 系列作為使用實例、用 g4dn.2xla
10、rge 來調試程序、用 g4dn.12xlarge 訓練模型。使用 Amazon EC2 的計算資源Amazon Simple Storage Service(Amazon S3)是一種對象存儲服務,提供行業領先的可擴展性、數據可用性、安全性和性能;提供了易于使用的管理功能,因此可以組織數據并配置精細調整過的訪問控制以滿足特定的業務、組織和合規性要求。Amazon S3 可達到 99.999999999%的持久性,并為全球各地的公司存儲數百萬個應用程序的數據。中科院計算所將深度學習模型訓練數據和最終得到的模型都保存在 S3 上;此外,從 EC2 向 S3 調用數據是免費并快速的,保證數據安全平
11、穩、順利過渡?!耙驗閷嶒炇业姆掌魉懔τ邢?,而且由于疫情的原因,如果不使用亞馬遜云科技的話我們根本無法在如此短的時間內得到想要的結果。亞馬遜云科技在短時間內、計算需求巨大的緊急任務處理上為我們提供了巨大的幫助,后續如果有計算需求的話希望能夠持續保持合作?!笔褂?Amazon S3 存儲功能17_信泰宜合(Syntax)基于 AWS 構建 ERP 全托2.17_信泰宜合(Syntax)基于 AWS 構建 ERP 全托云馭 科研|攻堅生命科學研究的核心上海交大利用亞馬遜云科技云計算加快虛擬藥物篩選上海交大利用亞馬遜云科技云計算加快虛擬藥物篩選一直以來,分子水平的研究都是生命科學研究的核心??茖W家要
12、耗費多年時間從海量的分子中,分析分子結構、基因組信息、分子的吸收與循環、新陳代謝等“密碼”,從而找到對抗疾病的靶標,并進行藥物篩選、臨床研究和藥物的上市銷售。陳海峰教授的課題組是隸屬于上海交通大學生命科學技術學院生物信息學與生物統計學系和微生物代謝國家重點實驗室的研究團隊。他所帶領的團隊主要研究方向為虛擬藥物篩選,分為兩大方向:一是天然無規蛋白的精準分子力場研究,二是通過計算機輔助創新藥物設計,找到藥物和靶標蛋白之間的匹配關系,從而找到治療某種特定疾病的相關藥物。在 COVID-19 爆發的當下,越早獲得相關信息,找到可能的命中結果,就可以越早結束這場疫情。而藥物的篩選過程非常復雜,需要大量的
13、計算資源來輔助完成。課題組采用了 Amazon Web Services的Amazon Elastic Compute Cloud(Amazon EC2)、Amazon Elastic Block Store(EBS)和 Amazon Simple Storage Service(Amazon S3)。課題組早先使用的是本地服務器,共有 8 個 GPU,計算性能較弱,需要花費更多的時間才能得到結果。面對 COVID-19 的大流行,陳海峰教授的課題組進行了一系列藥物的虛擬篩選研究,以期盡快找到那把打開“病毒蛋白”的鑰匙。深度學習面臨的挑戰虛擬篩選研究面臨的挑戰為什么選擇亞馬遜云科技?為什么選擇
14、亞馬遜云科技?Amazon EC2 是一種 Web 服務,可以在云中提供安全并且可調整大小的計算容量。該服務旨在讓開發人員能夠更輕松地進行 Web 規模的云計算。Amazon EC2 的 Web 服務接口非常簡單,可以最小的阻力輕松獲取和配置容量。使用該服務,企業可以完全控制計 算資源,并可以在成熟的 Amazon 計算環境中運行。COVID-19 的出現,給課題組的研究工作帶來了極大挑戰。課題組希望在更短的時間獲得更高效的結果。這就需要將計算 資源從有限到無限擴展,或者能夠按需擴展資源,來實現不同數據庫的并行計算,這也讓課題組的經費捉襟見肘?!袄脕嗰R遜云科技提供的云平臺,課題組很快就能獲取
15、所需的算力,在云上我們只需要幾分鐘就創建了需要的 CPU和 GPU 的計算平臺,與本地購買服務器、部署相比非常高效;而且,在云上部署相關分析軟件時,亞馬遜云科技利用全球資源聯系到了技術專家,給予我們很多幫助,這對于快速進行研究非常重要?!标惡7褰淌?,上海交通大學“經過我們估算,現在云上的 CPU 計算性能,比我們本地實驗室快5倍,為課題組進行大規模的并行計算帶來了突破”劉灝博士,上海交通大學3.17_信泰宜合(Syntax)基于 AWS 構建 ERP 全托未來,陳海峰教授的課題組會將這個項目的數據存放在亞馬遜云科技的公開數據集中,供全球的藥廠和研究所免費查看和使用,目的是利用全球合作盡快開發出
16、針對 COVID-19 的特效藥物,為全人類對抗疫情做出應有的貢獻!獲得成效 EBS 是一種易于使用的高性能數據塊存儲服務,旨在與 Amazon Elastic Compute Cloud(EC2)一起使用,適用于任何規模的吞吐 量和事務密集型工作負載。Amazon EBS 上部署著廣泛的工作負載,例如關系數據庫和非關系數據庫、企業應用程序、容器化應用 程序、大數據分析引擎、文件系統和媒體工作流。Amazon S3 是一種對象存儲服務,提供行業領先的可擴展性、數據可用性、安全性和性能。這意味著各種規模和行業的客戶都可以 使用它來存儲和保護各種用例(如網站、移動應用程序、備份和還原、存檔、企業應
17、用程序、IoT 設備和大數據分析)的任意數量的 數據。Amazon S3 提供了易于使用的管理功能,因此企業可以組織數據并配置精細調整過的訪問控制以滿足特定的業務、組織和合 規性要求。Amazon S3 可達到 99.999999999%的持久性,并為全球各地的公司存儲數百萬個應用程序的數據。在短時間內,課題組利用 Amazon EC2 的實例篩選了五個藥物庫,總計超過幾百萬個藥物分子。Amazon EC2 第 5 代計算優化型實例 c5.9xlarge,幫助課題組快速搭建了虛擬藥物篩選流程,僅用時 2 天,即完成了快速篩選 5 類藥物分子數據庫 ZINC、CHEMBL、CHEMBRIDGE、
18、NCI、TCM,獲得了14個具有潛在抗毒特性的分子,其中最優的一個分子 的 Glide 得分為-13.256(評分越低越好)。而這類分析在本地分析平臺上一般需要 1 周多的時間。在做虛擬藥物篩選的同時,課題組基于 Amazon EC2 第三代 GPU 實例 p3.8xlarge,內含 4 個 GPU,支持 NVlink 實例,快速搭 建了 GPU 加速的分子動力學模擬分析流程,對篩選的結果從動力學模擬的角度來進一步解釋和證明。課題組選擇了虛擬篩選結果最優的 4 個藥物分子進行第一批的模擬分析,僅用 1 周的時間就拿到了初步模擬的結果,隨后又提交 了第二批篩選藥物分子進行模擬,得到了很好的分子模
19、擬結果,證明了這些藥物分子的成藥可能性,而本地計算一般需要 20-30 天。4.云馭 科研|亞馬遜云科技云計算助力華南理工大學廣州學院實現智能垃圾分類云馭 科研|亞馬遜云科技云計算助力華南理工大學廣州學院實現智能垃圾分類近年來,垃圾分類成為人們關注的環境問題,但垃圾分類對于很多地方來說仍是個難題,很多人難以區分或記不住該如何正確地進行垃圾分類。大量的生活垃圾混在一起,給后續的處理帶來很大難度,同時也耗費龐大的人力物力,既耗時又效率低下。為了解決這些問題,華南理工大學廣州學院團隊創建了垃圾分類系統項目,該系統主要分為 Web 端垃圾圖片的智能分類以及實體端 DeepLens 的實時檢測與分類:團
20、隊通過機器學習的方式去訓練收集到的各種各樣的垃圾圖片,加之 Amazon SageMaker 圖像識別深度學習算法,在 Amazon Web Services上訓練出高效的模型,將其部署到 Amazon Deeplens 智能攝像頭中,實現實時垃圾分類。從技術層面看,該項目實現的難點主要體現在以下方面:從原始數據收集、數據預處理、打標簽等,再到模型的訓練、校驗評估、以及最終用于生產環境的推理,這些都需要大量的計算資源。亞馬遜云科技在全球 24 個地理區域運行著 77 個可用區,這些基礎設施可以為任何規模的企業或機構提供充足的計算能力與資源;亞馬遜云科技通過分布式計算,可以隨時為任何規模的企業或
21、機構提供充足的計算能力與資源,滿足快速處理 PB 級數據的計算資源需求,并滿足需要極高 GPU 算力的情形。如果想要在本地搭建服務器集群來獲取相同的算力,則需要巨大的前期投入,且后期的維護也是一項艱巨的任務,但使用亞馬遜云科技,只需要點擊鼠標就可以快速獲得這一切。此外,亞馬遜云科技豐富的開箱即用的云服務也使應用系統開發變得更加高效,借助 Amazon API Gateway、Amazon Lambda 和 Amazon Simple Storage Service(Amazon S3)等服務組合到應用程序工作流中,就可以輕松實現自動化、無服務器的應用系統,進一步降低應用的運行成本和維護難度。關
22、于“基于Amazon DeepLens 和 Amazon SageMaker 的垃圾分類系統項目”面臨的挑戰利用 Amazon SageMaker,項目組通過訓練事先準備的生活垃圾數據集,得到一個機器學習模型,從而生成模型終端節點,為 Web 端和 DeepLens 提供機器學習分類的核心支持。而 Amazon DeepLens 則可以借助之前訓練得到的模型終端節點,對實物進行實時快速地識別與劃分,并將結果返回到 Web 端進行結果可視化,方便了人工生活垃圾劃分的過程。該應用能通過攝像頭快速識別垃圾,然后對垃圾進行分類,并且將結果反饋回屏幕以提示人們如何進行分類,這不僅大大縮短了垃圾分類的時間
23、、提高了垃圾分類的效率,同時也減少了大量的人力資源。對于日產垃圾較多的城市以及不懂得垃圾分類的絕大多數人而言,這無疑是一個非常有價值的應用。垃圾分類無疑是將來社會乃至世界關注的重點話題,因此本項目的研究具有非常好的前景,它能在垃圾分類中起到非常關鍵且高效的作用。沒有完整的機器學習框架以及符合條件的算法模型,自建一個模型消耗的人力物力比較大,并且模型的準確率也難以提高;不斷地訓練機器學習模型需要大量的算力,傳統的方式是自建服務器集群或者利用超算中心,這種方式不僅需要投入巨資,而且后期的系統運維也很困難;目前市場上少有能自主進行機器學習的攝像設備,要進行實時且快速地檢測并識別分類是件困難的事情。傳
24、統的機器學習在圖片處理方面耗費很多時間,后續的訓練和調參優化的效率都不能達到項目要求。為什么選擇亞馬遜云科技?為什么選擇亞馬遜云科技?Amazon SageMaker 可以提供巨大的算力5.基于 Amazon DeepLens 和 Amazon SageMaker 的垃圾分類系統項目所使用的亞馬遜云科技服務主要包括 Amazon Route 53、Amazon CloudFront、Amazon Lambda、Amazon SageMaker、Amazon DeepLens、Amazon API Gateway 和 Amazon S3?;?Amazon DeepLens 和 Amazon S
25、ageMaker 的垃圾分類系統架構示意圖從收集到的原始數據到可以用作訓練的訓練集,中間要經過數據預處理、打標簽等過程,Amazon SageMaker 提供的 Ground Truth 服務可以為數據集自動打標簽,節省了項目所需的時間成本,使得原本費時費力的工作可以以極高的效率完成?;陬A處理后的數據集完成“智能垃圾分類系統”需要采用人工智能和機器學習的方法進行復雜的分析、迭代和計算,亞馬遜云科技提供了完善的人工智能和機器學習服務,可以大幅縮短這一系統的開發周期。傳統的機器學習開發是一個復雜、昂貴的迭代過程,如果沒有適用于整個機器學習工作流程的集成工具,將使這一過程更加困難。Amazon S
26、ageMaker 在單個工具集中提供了用于機器學習的所有組件,使用戶能以更低的成本、更輕松地在更短時間內將模型投入生產。團隊運用 Amazon SageMaker、Amazon DeepLens、Amazon API Gateway 等服務,結合項目團隊收集到的數萬張數據集和相關領域知識,設計和訓練了一套適應各類常見生活垃圾特征學習和分類模型,并借助亞馬遜云科技自動化多層堆疊集成技術,對模型結構和參數進行深度調優,再進行分布式高性能推理,最終實現了基于機器學習的生活垃圾分類系統。特別需要提及的是,目前市場上少有能自主進行機器學習的攝像設備,要進行實時且快速地檢測并識別分類是件困難的事情。Ama
27、zon DeepLens 可通過完全可編程的攝像機、教程、代碼和旨在拓展深度學習技能的預受訓模型,幫助開發人員進行機器學習。它可與 Amazon SageMaker 集成以用于訓練模型,只需在亞馬遜云科技管理控制臺中單擊幾次,即可將 Amazon SageMaker 中訓練的模型發送到 Amazon DeepLens。獲得成效首先,使用亞馬遜云科技產品和服務大幅度減少了系統開發和維護的成本。由于亞馬遜云科技很方便地提供算力和按需付費的特性,使團隊減少了在本地自建服務器集群的成本和后期維護的開銷,這也加快了系統的開發速度。其次,亞馬遜云科技整套的機器學習服務使團隊能輕松快速地設計和訓練一套適應各
28、類常見生活垃圾特征學習和分類模型,并將其部 署到 Web 端和 Amazon DeepLens 上進行測試,加快了系統開發的進程。最重要的是,Amazon DeepLens 是支持機器學習的視頻攝像機,方便團隊進行生活垃圾實物的識別與劃分的開發過程,這是項目的另一重要核心工具。采用 Amazon API Gateway、Amazon Lambda 和 Amazon S3 結合搭建的無服務器架構,使團隊能夠在 Web 端上傳圖片預測的同時,也能進行 Amazon DeepLens 推理結果的網頁可視化。亞馬遜云科技云服務可以以極低的成本,快速開發并部署系統,這在傳統模式下幾乎是無法實現的。完善的
29、人工智能和機器學習套件6.云馭 科研|遙感數據源、巨大算力、人工智能加持亞馬遜云科技攜手清華大學快速打造云上遙感科研新范式云馭 科研|遙感數據源、巨大算力、人工智能加持亞馬遜云科技攜手清華大學快速打造云上遙感科研新范式從技術層面看,清華大學地球觀測數據與制圖項目實現的難點主要體現在三個方面:沒有原始遙感數據源。由于遙感數據集的體量很大,達到 PB 級別,很難采用傳統方式下載遙感數據集;從原始的遙感圖像到最終生成無縫遙感數據集(Seamless Data Cube,SDC)需要大量算力。傳統的方式是自建服務器集群或利用超算中心,這種方式不僅需要投入巨資,而且后期的系統運維也很困難;系統產生的最終
30、數據也是 PB 級別的,如果要存儲在本地,將需要大量的存儲資源,而且不利于第三方用戶使用。近年來,環境變化和人類活動導致土地利用和土地覆蓋不斷變化,從地方到全球范圍都需要更精細和更頻繁的地表制圖來支持實現聯合國可持續發展目標。然而,傳統遙感由于技術和成本限制,難以提供同時具有高空間分辨率和高時間頻率的觀測,而云和惡劣天氣等因素的影響進一步降低了遙感觀測質量。為了解決這些問題,清華大學地球系統科學系新一代地球觀測數據與制圖項目(以下簡稱“清華大學地球觀測數據與制圖項目”)長期致力于全球高分辨率、高時間頻率、長時間序列地表覆蓋動態制圖與監測研究,采用基于虛擬星座的時空遙感數據融合重建技術,主要利用
31、亞馬遜云科技公開數據集(Amazon Open Data),實現了自動化、無服務器、端到端的流式生產鏈,僅用半年時間,就生產出“21 世紀中國 30 米逐日無縫遙感觀測數據集 SDC”,并進一步利用亞馬遜云科技上完善的人工智能和機器學習套件,經過一系列專業的數據一致性后處理,產生了“21 世紀中國逐季節土地覆蓋和逐年土地利用制圖產品”。這套產品的推出大幅度降低了遙感信息使用門檻,拓展了傳統遙感的應用領域。原始遙感數據的獲取是項目開展的基礎。Amazon Open Data 上托管了多種類型的數據,涵蓋很多行業,包括遙感地理信息、衛星、生物基因等,亞馬遜云科技免費為數據提供者提供存儲空間,用戶可
32、以隨時訪問和使用這些數據。Amazon Open Data 中的數據集大多數都會定期更新,到目前為止已經有 203 個公共數據集供用戶免費使用,這些數據集可以直接下載到本地使用,也可以直接在亞馬遜云科技上使用。通過 Amazon Open Data 云端數據共享,用戶可以將更多時間用于數據分析,而不是數據采集,無論企業的規?;蛴嬎隳芰θ绾?,在云上直接使用 Amazon Open Data 顯著降低了分析大型數據所需的成本、時間和技術障礙,從而產出可持續的見解。在亞馬遜云科技上共享數據后,任何人都可以使用包括 Amazon Elastic Compute Cloud,Amazon Athena,
33、Amazon Lambda 和 Amazon EMR 在內的各種計算和數據分析產品對其進行分析并在其之上構建服務?!拔覀兊捻椖渴褂?Amazon Open Data 上的 Landsat 和 MODIS 遙感數據集,這些數據集都是 PB 級別的,如果要下載到本地,需要花費數月的時間,而亞馬遜云科技的云基礎設施提供了高速的數據獲取和傳輸能力,使源數據可快速進入計算處理流程,無需先行下載,這使我們可以將主要精力全部用于項目核心處理流程的開發?!眲⒑┦空f。清華大學地球觀測數據與制圖項目組利用 Amazon Open Data 進行研究,并產出了 2 個新的數據集,并將新數據集再次分享到 Amazo
34、n Open Data 上,便于該行業及其相關行業的項目研究和技術進步。關于項目面臨的挑戰為什么選擇亞馬遜云科技?為什么選擇亞馬遜云科技?Amazon Open Data,免費公共數據集,任意量級隨時共享7.圖 1 清華大學地球觀測數據與制圖項目系統架構示意圖清華大學地球觀測數據與制圖項目從 2019 年 10 月開始與亞馬遜云科技合作,僅用半年時間就成功完成了兩套產品:“21 世紀中國 30 米逐日無縫遙感觀測數據集(SDC)”和“21 世紀中國逐季節土地覆蓋和逐年土地利用制圖產品”。此外,從原始數據到最終生成的無縫遙感數據集(SDC),中間要經過非常復雜的專業計算處理,需要大量的高性能并行
35、計算資源。亞馬遜云科技可以隨時提供超大算力,滿足快速處理 PB 級數據的計算資源需求;基于 SDC 完成“21 世紀中國逐季節土地覆蓋和逐年土地利用制圖產品”,需要采用人工智能和機器學習的方法進行復雜分析、迭代和計算,亞馬遜云科技提供了完善的人工智能和機器學習服務,可以大幅縮短這一系統的開發周期。獲得的成效使用亞馬遜云科技給清華大學地球觀測數據與制圖項目帶來了多方面好處:大幅度減少原始遙感數據的下載和傳輸時間。一般來說,PB級別的遙感數據下載通常需要花費數月才能完成,使用 Amazon Open Data 上托管的遙感數據,使這一難題迎刃而解,只需單擊一下即可分析數據,系統省去了下載數據的工作
36、,直接進入數據處理與分析過程,這使得項目完成的時間縮短至半年。降低了系統的總體擁有成本。研究人員可以分析在亞馬遜云科技上共享的數據,而無需付費存儲自己的副本。他們僅需為使用的計算付費,而無需購買存儲來啟動項目。開發和運維成本降低了 30%。項目組隨時獲得巨大算力的同時,還能盡可能多地啟用低成本的 Spot 實例,這些過程都由亞馬遜云科技服務自動完成,無需人工干預。借助亞馬遜云科技云,項目組未來可以完成全球范圍的土地覆蓋制圖產品,建立全球地表覆蓋制圖門戶,無論是遙感專業用戶還是非專業用戶都可以將這些數據用于不同的應用領域,促進遙感應用市場的普及化。8.區塊鏈分片已越來越多地用于改善區塊鏈系統的可
37、伸縮性,其中,區塊鏈被分為多個不相交的碎片。但實際上,分片只能實現有限的性能改進,這被認為是由跨分片交易引起的。與傳統觀點相反,南方科技大學區塊鏈分片項目團隊通過全面的系統部署和度量研究表明,真正的“罪魁禍首”是跨區塊鏈分片的交易負載不均衡。為了解決上述問題,南方科技大學區塊鏈分片項目團隊提出了一種新穎的區塊鏈分片方案,該方案通過定期將繁忙帳戶從高負荷分片遷移到負荷較小的分片來動態平衡不同分片上的交易負載。在分析、測試和比較了多個公有云平臺之后,南方科技大學區塊鏈分片項目最終選擇了 Amazon Elastic Compute Cloud(Amazon EC2)(含 Spot 實例)和 Ama
38、zon Simple Storage Service(Amazon S3)。其主要原因包括兩個方面:Amazon EC2 與 Amazon S3 提供了巨大的算力與快捷方便的大規模部署。算力需求:服務器需要運行區塊鏈節點,而區塊鏈節點需要求解 Proof-of-Work(PoW)問題,這需要大量的 CPU 或 GPU 的算力。Amazon EC2 的多版本系統(比如 Ubuntu),可以輕松找到合適的運行系統;快捷的服務器啟動,方便一次啟動多臺實例;性能多樣化的實例,方便項目組輕松找到合適的區塊鏈運行環境??旖菪枨螅阂驗樾枰\行的區塊鏈網絡規模較大,這需要能夠快速啟動、配置多臺服務器,且因在編
39、程及實驗過程中需要頻繁更新區塊鏈版本,因此需要快速對一臺服務器備份并用其生成鏡像,從而利用此鏡像啟動大量相同的服務器。Amazon S3 快捷的鏡像及備份可以很方便地生成鏡像并利用鏡像批量啟動實例。其一,區塊鏈網絡的部署需要大量節點,使用傳統方式部署服務器存在各種問題。例如:配置系統環境時間長且復雜,在系統內配置區塊鏈網絡運行環境較為復雜,且一旦配置失敗便難以恢復原始環境。在多服務器上大規模配置區塊鏈環境需要逐個手動操作,費時且費力,并且當需要對區塊鏈版本做更新時操作復雜。從技術層面看,南方科技大學區塊鏈分片項目實現的難點主要體現在兩個方面:面臨的挑戰為什么選擇亞馬遜云科技?為什么選擇亞馬遜云
40、科技?其二,區塊鏈各個節點的運行需要大量的算力,傳統的方式是自建服務器集群或者利用超算中心,這種方式不僅需要投入巨資,而且后期的系統運維也很困難。Amazon EC2 是一種 Web 服務,能在云中提供安全且可調整大小的計算能力,旨在讓開發人員更輕松地進行 Web 規模的云計算。其 Web 服務接口非常簡單,開發人員可以最小的阻力輕松獲取和配置容量。Amazon S3 是一種對象存儲服務,提供行業領先的可擴展性、數據可用性、安全性和性能。這意味著各種規模和行業的客戶都可以使用 S3 來存儲并保護各種用例的數據,容量不限。它提供了易于使用的管理功能,因此可以組織數據并配置精細調整過的使用權限控制
41、,從而滿足特定的業務、組織和合規性要求。Amazon S3 可達到 99.999999999%的持久性,并為全球各地的公司存儲數百萬個應用程序的數據。云馭 科研|以彈性算力和快速部署為抓手南方科技大學區塊鏈分片項目高效落地9.南方科技大學區塊鏈分片項目從 2019 年 12 月開始與 Amazon 合作,僅用半年的時間就成功完成了對提升區塊鏈分片可擴展性的研究。這源于 Amazon EC2 多樣化性能的實例,能夠支持項目組運行各種區塊鏈節點;此外,Amazon EC2 擁有多種系統環境,便于找到合適的運行系統,這為項目組配置系統環境節約了大量時間;Amazon EC2 和 Amazon S3
42、的鏡像功能,便于快速將一個實例上的代碼、環境等快速備份并快速擴展到其他實例上。亞馬遜云科技的服務十分穩定,在開啟眾多實例的情況下,實驗最長的一次持續了大約 3 天,期間所有實例一直穩定運行,沒有發生任何問題。大量實驗證實,該系統大大提高了分片性能,將交易確認延遲減少了 50 以上,同時將交易吞吐量增加了 10 以上,不同賬戶之間的性能差異也大大減少,從而提高了系統中的公平性。該項目所使用的亞馬遜云科技服務主要包括通過在 Amazon EC2 上大規模部署區塊鏈節點實現了該區塊鏈分片系統,并使用真實交易記錄,通過大規模的區塊鏈部署來評估其性能。南方科技大學區塊鏈分片項目在使用的時候最多同時開啟了
43、 64 臺 r5.xlarge 實例,使用亞馬遜云科技可以在數分鐘內完成服務器的開啟和配置;在不需要使用如此多實例的時候也可以很方便地關閉,避免產生額外費用。獲得的成就10.云馭 科研|亞馬遜云科技云計算聯合北京智源人工智能研究院有力支持國際小分子制藥性質預測大賽云馭 科研|亞馬遜云科技云計算聯合北京智源人工智能研究院有力支持國際小分子制藥性質預測大賽內容提要:如何建立針對研發過程中多個化學屬性進行預測的模型,將有效提高藥物發現的成功率。能根據結構提前預測小分子的性質,將減少藥物的研發成本。亞馬遜云科技聯合北京智源人工智能研究院、晶泰科技和數據競賽平臺 biendata,共同組織了一次小分子制
44、藥性質的預測大賽,邀請全球人工智能開發者共同解決以上問題。藥物研發是一項成本極高的工作。著名的醫學期刊 JAMA 的一篇調查論文顯示,研發一款癌癥藥物的成本在 6.48 億美元左右。其中,大量成本都會用于待選藥物分子的化學測試實驗上。虛擬篩選等計算生物學技術可以降低篩選對象集,降低制藥成本,而機器學習技術的出現輔助了計算生物學的進步。因此,化學信息學或藥物研發領域開始使用各種機器學習技術,包括 SVM、隨機森林和深度學習,以及圖神經網絡等。不過,相關技術仍有提升空間,行業內也缺乏統一的、有影響力的評測。藥物研發是一個多目標優化問題,如何建立針對研發過程中多個化學屬性進行預測的模型,將有效提高藥
45、物發現的成功率?,F有的量化計算方法可以取得較高的精度,但是需要消耗較多的計算資源。如何利用已有數據建立優質的機器學習模型,逼近量化計算的結果,將為虛擬藥物設計找到準確度和成本的平衡點。根據分子結構信息預測分子可能的化學性質,將在化學研究和制藥領域產生重要應用。目前,大部分潛在藥物都是小分子,如果能根據結構提前預測小分子的性質,將減少藥物的研發成本。因此,Amazon Web Services 聯合北京智源人工智能研究院、晶泰科技和數據競賽平臺 biendata,共同組織了一次小分子制藥性質的預測,邀請全球人工智能開發者共同解決這一問題。本項目的數據集來自 GDB-17 標準數據集,這是由 16
46、60 億個有機分子組成的小分子化學空間,由波恩大學提供。該化學空間里面的所有分子包含的重原子(即 C、S、O、N 等原子),原子個數小于 17 個。此后,Raghunathan Ramakrishnan 等人通過理論化學方法測算了其中 133,885 個小分子的性質。為了便于沒有化學領域知識的選手參與比賽,本次比賽的聯合主辦方晶泰科技從小分子結構中提取出 3177個相關的分子描述符和分子指紋,作為數據的輸入特征。藥物研發背景介紹內容提要:本項目的數據集來自 GDB-17 標準數據集,這是由 1660 億個有機分子組成的小分子化學空間。為了便于沒有化學領域知識的選手參與比賽,本次比賽的聯合主辦方
47、晶泰科技從小分子結構中提取出 3177 個相關的分子描述符和分子指紋,作為數據的輸入特征。本項目數據集介紹11.本次大賽的組織方在分析、測試和比較了多個公有云平臺之后,最終選擇了亞馬遜云科技,采用了 Amazon Step Functions、Amazon Batch、Amazon Elastic Compute Cloud(Amazon EC2)、Amazon Elastic Container Registry(Amazon ECR)、Amazon Elastic Container Service(Amazon ECS)、Amazon Simple Storage Service(Ama
48、zon S3)、Amazon Lambda、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon EMR、Amazon SageMaker 產品。究其原因,是因為亞馬遜云科技提供了完善的人工智能和機器學習套件,可以更好地方便選手把注意力集中在算法上,高效地開發模型;亞馬遜云科技公開數據集能夠提供所需的原始數據,并可隨時提供巨大的算力,支持主辦方和參賽者順利完成任務。為什么選擇亞馬遜云科技?為什么選擇亞馬遜云科技?處理后的數據集包括以下兩個部分:本數據集可以預測的性質 小分子結構信息,以及計算化學專家根據結構提取出的 3177 維特征。比賽期間
49、只發布特征數據,比賽后將發布結構信息和提取特征 的代碼。分子性狀數據,每個小分子包括 17 類性狀,包括能量和結構常數等。如下圖所示。本數據集包括 133,885 個小分子的結構特征和化學特征。其中結構特征通過代碼自動提取。在比賽結束后,分子原始結構數據和特征提取代碼都將公布。每個小分子有 17 個化學性質,在比賽中,選手需要預測其中的 6 個性質。本次比賽任務是根據從小分子結構中提取的特征,預測小分子的六個化學性質:Dipole Moment,homo energy,lumo genrgy,zero point vibrarional energy,atomization energy at
50、 zero kelvin,atomization energy at room temperature。這六個性質的準確預測對于藥物的發現和開發將提供重要價值。本次評測采用 SMAPE 作為評測方法。其中,如果真實值和預測值都為 0,我們把分數設置為 0。每個化合物的得分為 6 個化學性質的 SMAPE 分數之和。每個提交文件的分數為每個化合物得分的平均值。比賽任務No.Property Unit Description 1 tag gdb9string to facilitate extraction 2 i Consecutive 1-based integer identifier 3
51、A GHz Rotational constant 4 B GHz Rotational constant 5 C GHz Rotational constant(非完整表格,僅供示意)12.北京智源人工智能研究院副院長唐杰表示:“利用亞馬遜云科技提供的云平臺,競賽平臺能方便快捷地開發出面向個人用戶的模型提交系統。在決賽階段,這些選手可以通過比賽平臺 提交模型,并利用亞馬遜云科技的 GPU 算力迅速做出預測,提升了比賽效率?!鲍@得成效本次比賽共有 697 名選手參賽,覆蓋了 12 個國家或地區,包括中國大陸、中國香港、美國、加拿大、俄羅斯、澳大利亞、新加坡、德國、英國、印度等。參賽選手覆蓋了
52、277 所學校、科研機構和企業,包括 160 所大陸高校及科研機構(北京大學、清華大學、北京郵電大學、華南理工大學、浙江大學、復旦大學、武漢大學、大連理工大學、重慶郵電大學、中國科學技術大學、電子科技大學、吉林大學、南京郵電大學、廣東工業大學、中科院計算所、中科院物理所等);21 所其他國家和地區高校及科研機構(卡耐基梅隆大學、倫敦瑪麗女王大學、匹茲堡大學、香港中文大學、新加坡國立大學、佛羅里達大學、羅馬大學、香港科技大學、阿爾伯塔大學、麥克馬斯特大學、加州大學圣芭芭拉分校、南丹麥大學、圣光機大學、戈梅利國立工科大學、福特漢姆大學、紐卡斯爾大學、加州大學歐文(爾灣)分校、蘇黎世大學等);以及
53、96 家公司(包括騰訊、網易、奇虎 360、阿里巴巴、融 360、華為、京東、微軟、醫聯、北大醫信、上海聯影醫療科技有限公司、中國移動、中國聯通、中國電信、京東方、廣州萬孚生物技術股份有限公司、美林數據技術股份有限公司、天云大數據、九次方大數據、民生科技、途家網、陌陌等)。13.云馭 科研|亞馬遜云科技計算和對象存儲優勢助力浙江大學微生物學研究更上一層樓云馭 科研|亞馬遜云科技計算和對象存儲優勢助力浙江大學微生物學研究更上一層樓湖泊是全球水生生態系統的主要組成部分。在流域尺度上,各種物質最終聚集到湖泊,各種物理、化學和生物效應都發生在湖泊中。這些過程不僅在區域范圍內對氣候產生重大影響,而且對全
54、球氣候也起著重要作用。我國是世界上湖泊類型最為復雜和多樣的國家之一,疆域內面積大于 1.0 km2 的自然湖泊有 2693 個,總面積達 81414.6 平方公里,占我國陸地總面積的 0.9%。然而由于缺乏有效的研究方法,湖泊中的微生物一直被視為“黑匣子”,我們對湖泊微生物多樣性、結構和功能的了解非常有限。在過去的 20 年里,測序技術和計算能力的迅速發展使微生物生態學領域發生了革命性變化。其中,宏基因組學是發展最快、應用最廣泛的方法之一。浙江大學吳敏課題組收集了大量的西部湖泊微生物宏基因組數據,并利用 Amazon Web Services平臺開展了微生物宏基因組組學分析,獲得了上千萬條基因
55、序列,建立了新疆、青海高海拔湖泊獨特的微生物基因資源庫,豐富了現有的微生物種質資源;同時,還觀察到阿爾金山高海拔湖泊微生物群落具有獨特的物種結構和功能偏好,通過進一步分析,有望取得重要的科學發現。宏基因組產生的龐大數據量和海量信息是此前傳統的研究方法所不能比擬的,但同時也對數據存儲和運算提出了更高的要求。在微生物學研究領域內,這樣龐大的計算需求是前所未見的。課題組缺少構建高算力服務器所需的經驗以及專業人員對系統進行運維。此外,課題組需要從開源數據庫中下載大量原始數據,用于和原有數據進行參比,這些數據來自全球各地的研究團隊,其數據量是課題組測得的數據的幾十倍。如何快捷地下載海外數據,如何合理地對
56、數據進行存儲,同時又能夠方便地對數據進行調用,這些都是亟需解決的問題。亞馬遜云科技平臺幫助課題組有效解決了這些難題,使其能夠迅速完成生物信息分析基礎流程的搭建,高效地做好前期數據的搜集和整理,并順利地 開展數據分析工作。強大的算力、靈活的資源配置、無限制的存儲空間、便捷的數據調用、高速的數據獲取和傳輸等等,都是課題組選擇亞馬遜云科技的理由。從原始測序數據到具有生物學意義的結論,需要經過多個生物信息學專業軟件的處理。這些軟件對計算資源的要求各不相同,有的對 CPU 要求很高,而不需要很多內存;有的占用內存很大,但只利用很少的 CPU。如果要使一臺服務器同時滿足各個軟件,就需要在各個方面都有很高的
57、配置,然而這樣的一臺服務器不僅耗資頗大,而且在單獨運行某一個軟件的時候,總是會有大量的資源閑置,而亞馬遜云科技靈活的資源配置就很好地解決了這一問題,使用不同的軟件時可以開啟不同類型的實例,既能滿足軟件的需求,又節省了不必要的資源浪費。Amazon Linux AMI 是由亞馬遜云科技提供的受支持和維護的 Linux 映像,用于 Amazon Elastic Compute Cloud(Amazon EC2)。它為 Amazon EC2 上運行的應用程序提供穩定、安全和高性能的執行環境,支持最新的 EC2 實例類型功能,并包含能夠輕松與亞馬遜云科技集成的軟件包。在運行 BLASTp 檢索 OM-
58、RGC 的時候,亞馬遜云科技強大的算力為課題組節省了一半以上的時間。在需要將自身數據與其他項目的數據進行橫向比對的時候,亞馬遜云科技也可以非??焖俚貜墓W下載課題組所需要的數據,并且可以以非常低的價格保存在 Amazon Simple Storage Service(Amazon S3)中以供隨時取用。而將 Amazon S3 中的數據調取到正在使用的 Amazon EC2 機器上的時候,則是全部使用亞馬遜云科技的內網,速度又提升了若干檔次。此外,亞馬遜云科技將系統封裝,可以在不同的實例上直接啟用,以及將其他流程封裝、工具集成等等方式,這些對于課題組來說都是全新的體驗。不僅使研究更加高效,而且
59、帶來一種模塊化的、可移植的新的理念。面臨的挑戰為什么選擇亞馬遜云科技?為什么選擇亞馬遜云科技?14.課題組從 2020 年 6 月開始運用亞馬遜云科技平臺,目前已經完成了瑪納斯湖、烏倫古湖、青海湖、喀納斯湖、阿牙克庫木湖、烏蘇肖湖、阿其克庫勒湖、巴里坤湖、賽里木湖、尕斯湖等 10 個湖泊,23 個樣點宏基因組的拼接、基因預測、注釋等工作。對 2.5 T 的測序數據分析,獲得了一千三百萬條基因序列,針對新疆、青海高海拔湖泊建立了豐富且獨特的微生物基因資源庫,為進一步深入開發基因功能、推動研究成果向產業應用轉化打下了堅實的基礎。通過宏基因組分箱分析,獲得了近兩百個細菌或古菌的基因組,其中包括數十株
60、尚未在實驗室中獲得純培養的類群,補充了現有的微生物種質資源。此外,通過將阿爾金山高海拔湖泊微生物宏基因組數據與 Tara ocean 項目、兩極海水樣品數據以及其他湖泊等上百個參比數據進行橫向比對,課題組發現高海拔湖泊在物種結構和功能傾向上都與兩極海水具有很高的相似性。參考青藏高原的地質變遷歷史,大約 45-38 個百萬年前,青藏高原初次隆升,塔里木盆地西部殘留的副特提斯海形成獨特的內陸海。大約 33.9 個百萬年之前,阿爾金山隆起,成為高海拔地區,隔絕了柴達木盆地向西的水系。自此之后,阿爾金山上的高海拔湖泊就以冰川融水和降雨為補充水源,呈現了相對獨立的演化過程。長期以來,由于交通不便,采樣極端困難,加上缺乏高效的研究方法和手段,這些湖泊無法被有效研究。這一次課題組排除萬難,從無人區中采得珍貴的樣品,并依托亞馬遜云科技平臺強大的支持,對上百個宏基因組數據進行集成分析,最終觀察到了這一獨特的生態現象。通過進一步深入的研究,有望取得重要的科學發現。獲得的成就15.掃碼了解更多亞馬遜云科技教育行業解決方案