1、AWS云服務云服務助力構建空間信息數據基礎設施助力構建空間信息數據基礎設施西云數據簡介迭代演進的AWS大數據平臺建設案例分享亞馬遜AWS中國(寧夏)區域云服務運營方寧夏西云數據科技有限公司(簡稱”西云數據”)是 AWS 中國(寧夏)區域云服務的運營方和服務提供方。AWS 為西云數據的戰略技術合作伙伴并向西云數據提供技術服務和技術支持。西云數據成立于 2015 年,是一家持有互聯網數據中心服務和互聯網資源協作服務牌照的云服務提供商。2017年12月12日,西云數據正式推出AWS 中國(寧夏)區域云服務,現已開通3個可用區。西云數據市場銷售總部設立于北京,在全國多地設有分支機構以服務全國各地的企業
2、客戶。西云數據致力于將世界先進的 AWS 云計算技術帶給中國客戶,為客戶提供優質、安全、穩定、可靠的云服務,全力支持中國企業和機構的創新發展。西云數據承諾盡可能多地使用可再生能源我們承諾使用盡可能多的可再生能源來支持您的業務,為地球可以持續發展貢獻你我的力量為什么AWS關心公共大數據客戶至上海拔模型海拔模型航空遙感圖像航空遙感圖像氣候模型氣候模型衛星圖像衛星圖像高分辨率雷達高分辨率雷達AWS上的地球:https:/amazonaws- 包含110種開放地測數據集,源數據由(非)政府組織、研究機構、企業和個人來維護AWS對GIS數據的表達日趨完善AWS對突發事件的及時響應2010年墨西哥灣的漏油
3、事件美國國家地理空間信息平臺,由美國聯邦地理數據委員會興建數據需要打電話給多個部門索要現在衛星將高清圖片傳送到Amazon Simple Storage Service(S3)上,后臺服務進行及時處理,對緊急相應組織非常有用全托管的全球衛星地面站服務;12個站點覆蓋全球任何軌道;節省建造和運營成本;快速與衛星數據進行交互;快速利用AWS服務進行計算、存儲、分析和機器學習等工作中國如何利用AWS與世界無縫融合:Ground Station下下載到本地載到本地 最傳統的方式 費時費力 無序的數據管理 沒有擴展性從數據中心訪問從數據中心訪問 遠程登陸 數據近線分析 僅下載分析結果 擴展性呢?從從AW
4、SAWS云訪問云訪問 遠程登陸 數據近線分析 僅下載分析結果 分布式計算和存儲資源有效的擴展,使用大量公開的數據,節省成本,簡化部署中國如何利用AWS與世界無縫融合:從AWS云訪問1.選取區域2.下載遙感圖像3.計算NDVI(Normalized Difference Vegetation Index,歸一化差分植被指數,標準差異植被指數)下載到本地示例:計算植被面積從AWS云訪問示例 圖庫放在Amazon S3上,每天更新,數據量大概在750TB,七百萬個圖片 前端應用托管在Amazon S3上,無需服務器就直接通過瀏覽器進行訪問 快速計算出北京1978年和2019年農作物的對比情況Live
5、 Demo:http:/landsatappv1p3.s3-website-us-west- S3原原始數據始數據Amazon S3數據湖數據湖Amazon EMRETL商業分析教育研究業務用戶開發商流式數據獲取AWS開放數據平臺高階分析事件抓取事件抓取Amazon Kinesis流分析流分析Amazon EMR事件事件處理處理AWS Lambda無無SchemaAmazon ElasticSearch直直接查詢接查詢Amazon AthenaNo SQLAmazon DynamoDB托管的托管的Hadoop平臺平臺Amazon EMR應用系統應用系統ERP,BW etc數據倉庫數據倉庫Ama
6、zon Redshift機器視覺文件導入機器學習模型的機器學習模型的構構建、建、訓練、測試和部署訓練、測試和部署Amazon SageMaker階段一階段二階段三階段一:選擇Amazon S3存儲搭建數據湖訪問頻度頻繁訪問不頻繁訪問動態,頻繁訪問數據毫秒級訪問 3 AZ不斷變化的數據訪問毫秒級訪問 3 AZ平均比Standard節省20%每對象單獨監控.最小化存儲周期不頻繁訪問數據毫秒級訪問 3 AZ比Standard節省40%基于GB的取回費用最小化存儲周期最小化存儲大小S3 StandardS3 Standard-IAS3 One Zone-IAS3 Glacier可再生的非頻繁訪問數據毫
7、秒級訪問1 AZ比Standard節省50%基于GB的取回費用最小化存儲周期最小化存儲大小歸檔數據分鐘到小時級訪問 3 AZ比Standard節省80%基于GB的取回費用最小化存儲周期最小化存儲大小S3 Intelligent-TieringS3 Glacier Deep Archive歸檔數據小時級訪問 3 AZ比Standard節省94%基于GB的取回費用最小化存儲周期最小化存儲大小N E W!N E W!階段一案例:快速獲取GHCN-D和批量分析全球氣候變化 背景-以前,全球氣候首先需要高質量和精準的氣候數據集-NCEI(National Centers for Environmenta
8、l Information)基于全球的氣候地面站負責維護氣候數據集(GHCN-D,Global Historical Climatology Network Daily),第一份數據是在1763年,至今已保存200多年的歷史數據 挑戰:-傳統分析方法是下載到本地,如果是想要最新的數據,就需要反復的每天進行下載-需要在可擴展的復雜的HPC環境中分析,并需要研究員對數據分析有很強的技術背景更有效的做法:-利用Amazon S3自動快照數據集,好處是:不需要手工下載,利用AWS的服務,縮短數據分析的時間,資源按需使用節約成本階段一案例:快速獲取GHCN-D和批量分析全球氣候變化階段二案例:實時獲取N
9、EXRAD天氣數據用于精確預警 背景-精確、及時地對強烈天氣和水文測量提供警報-Nexrad(Next-Generation Radar)是正開始在美國全國布網的下一代天氣雷達。是由160個高分辨率多普勒雷達站點組成的網絡挑戰-上云之前,研究員不可能得到足夠的數據進行實驗分析更有效的做法:-Nexrad在AWS上發布后,出現了WeatherPipe的開發,這是一個開源Java工具,簡化了在AWS上使用NEXRAD數據運行MapReduce作業的過程-計劃使用該工具進行更高級和特定的分析,例如風暴識別和分類。最終,希望為龍卷風等高影響天氣事件創建預測模型階段二案例:實時獲取NEXRAD天氣數據用
10、于精確預警對于“體積掃描”存檔文件(多普勒雷達站點掃描大氣時收集的數據)和“塊”數據(作為實時饋送快速傳輸的較小數據包),用戶都希望實時通知。階段三:用于深度學習的 Amazon EC2 實例Amazon EC2 P3 實例強大的GPU實例多達8塊NVIDIA Tesla V100 GPU1 PetaFLOP計算能力 比P2快14倍300 GB/s GPU間通信(NVLink)比P2快9倍16 GB顯存,峰值為900 GB/sec內存帶寬定制化的AMI,適用于深度學習Amazon EC2 C5 實例高性價比的CPU實例,加速INT8模型推理3.0 GHz Intel Xeon(Skylake)
11、白金版處理器,并配有全新的Intel AVX-512指令集72個vCPUs,144GB內存(比C4的性價比提升25%)基于全新Nitro虛擬化管理程序構建Amazon高性能,可擴展的算法分布式TensorFlow,Apache MXNet,Chainer,PyTorch自帶算法超參數調優構建部署訓練階段三:Amazon SageMaker 平臺概述階段三:使用Amazon SegMaker構建機器學習模型 背景-DigitalGlobe是一家全球領先的高分辨率地球圖像、數據和分析提供商-DigitalGlobe以前除了要建衛星基礎設施,還要建全球的地面接收站。如今,他們已經100%轉向使用AW
12、S的服務,使用SnowMobile將長達18年的100PB數據搬到AWS上挑戰-希望提供對其數據的按需訪問,同時降低AWS支出更有效的做法:-在Amazon S3和Glacier存儲上智能分層-使用AWS機器學習服務SegMaker來解決緩存問題,訓練緩存算法以找到客戶訪問模式的相關性預測率提升兩倍,存儲成本節省50%CloudFormation 模板一鍵式部署Federated withPortalS3 storage userRaster store,zip,fgdbImagery S3 StorageProfessional Imagery /Geospatial AnalystsArc
13、GIS平臺入口ArcGIS PortalEC2AGSVPCArcGIS ProAuto Scaling groupElastic Load BalancerEC2Configure StoreClient consuming hosted image servicesVPCImage servicesImage serverImage servicesImage serverEC2EC2Image servicesImage serverEC2Dynamic Image ServicesRaster AnalyticsElastic Load BalancerClient consuming
14、dynamic image servicesArcGIS Enterprise:ArcGIS Portal+ArcGIS Image Server +RDSRDSPostgres RDS其它案例分享:某用戶的ArcGIS在AWS云平臺部署架構ArcGIS平臺訪問控制中樞Client consuming imagery itemsArcGIS集群平臺桌面瀏覽器移動設備業務用戶業務數據終端用戶Raster Analytics云上部署效果RasterAnalytics onAWS 8 c3.2xlarge instances(8 vCPUs,16GB RAM)Mean RainfallMean Te
15、mperatureElevationLandcover30m National Solar Plant Suitability RasterRaster Analytics9 minutesArcGIS Desktop(ArcMap or ArcGIS Pro)5 hours 45 minutessuitability model總結-充分利用AWS開放數據集的價值:降低成本、提升體驗-搭建Amazon S3數據湖對于可擴展的GIS大數據平臺非常重要-合理使用適合的AWS服務完成批量或者實時的GIS應用-彈性的云平臺架構是搭建人工智能/機器學習的基礎知識分享案例研究社區互動云載未來云載未來成就所托成就所托