《基于容器服務的云原生實踐-云原生峰會(24頁).pdf》由會員分享,可在線閱讀,更多相關《基于容器服務的云原生實踐-云原生峰會(24頁).pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、基于容器服務的云原生實踐Cloud Native Practices Based on Alibaba Cloud Container Services孫文杰流利說 Cloud Infra Tech Lead徐征阿里云高級產品解決方案架構師從無狀態應用,到企業核心應用,到數據智能應用到2023年,70%AI任務會通過容器、Serverless等計算模型構建,并需要DevOps文化。-GartnerKubernetes is becoming the Infrastructure of the Cloud Native AgeKubernetes逐漸成為云原生時代的基礎設施AI任務生命周期管理A
2、I工程效率提升50%PrestoFlinkTensorflowKubeflow/Arena異構算力調度分布式緩存加速GPU/NPU共享利用率提升200%400%AI訓練加速20%GPU/NPU共享調度分布式緩存服務Scheduling Framework+PluginsKubernetes原生調度AI任務Gang/Capacity批作業調度器GPU/vGPU,NPUENI/RDMA異構資源統一管理NAS/OSS/CPFS異構算力支持云原生AI/計算應用ACK Cloud Native AI Umbrella-Efficient,Open and ScalableACK云原生AI套件 高效 開放
3、 可擴展公共云國內首家獲得可信云大規模容器集群性能測試“卓越級”,單集群萬節點,百萬容器ECS節點千節點3分鐘彈性擴容;彈性容器實例60秒1000 Pod應用層資源層PodPodPodPodECS虛擬機PodPodPodPod神龍裸金屬PodPodPodPodGPU 實例PodPodPodPod50%90%成本節省競價實例PodPodPodPod虛擬節點PodPodPodPodPodHPA 水平伸縮PodPodPodPodPodPod定時伸縮KubernetesPodPodVPA 垂直伸縮Strong and Flexible Elastic capacity強大、靈活的彈性能力流利說-基于容
4、器服務的云原生實踐Cloud-native and Elastic Computing Practices-LAIX孫文杰流利說 Cloud Infra Tech Lead紐交所上市公司 LAIX卓越的科技驅動教育公司AI+教育賦能每個人實現最大潛力公司介紹Introduction計算流利說英語流利說雅思PIE流利說閱讀存儲網絡安全算法SpeechASRTTSBOTLQNLP中臺內容運營支付登陸訂單通用基礎微服務AI訓練在線推理All On K8sOverall business structure流利說整體業務結構微服務聲明式API容器跨平臺/多云Cloud Native(可彈性、可管理、可
5、觀測、自動化、容錯)IaC12因子DevOps天生適合運行在云上的應用,并讓應用可以運行在任意云上Born in the cloud,Grow in the cloud,Natural cloud native architecture流利說,生于云、長于云,天然的云原生架構HPAGPUECSVPAECISpot彈性When need it,turn the faucet and the water comes,I just have to worry about paying the bill當需要的時候,扭開水龍頭,水就來了,我只需要操心交水電費就是了!彈性策略利用率工程效率成本優化可用性
6、、AZ風險多集群高可用部署架構應對隨時伸縮API網關ServiceMesh業務架構Three keys to problem solving解決問題的三大關鍵工作流輕巧、彈性、高效屏蔽所有底層資源配置管理數據收集數據校驗特征提取流程管理工具分析、可視化工具計算資源管理在線服務基礎設置監控日志機器學習代碼AI system engineering is inefficientAI系統工程效率低解放數據科學家,專注于核心代碼#submit a distributed training jobarena submit mpijob-name=tf-dist-data-workers=6-gpus=2
7、-data=tfdata:/data_dir-env=num_batch=100-env=batch_size=80-image=ali-tensorflow:gpu-tf-1.6.0/root/hvd-distribute.sh 12 2”#check job deatilsarena get tf-dist-dataNAME STATUS TRAINER AGE INSTANCE NODEtf-dist-data RUNNING tfjob3d tf-dist-data-tfjob-ps-0 192.168.1.120tf-dist-data SUCCEEDED tfjob3d tf-di
8、st-data-tfjob-worker-0 N/Atf-dist-data SUCCEEDED tfjob3d tf-dist-data-tfjob-worker-1 N/AYour tensorboard will be available on:192.168.1.117:32594用一個工具屏蔽所有底層資源、環境管理、任務調度和GPU分配的復雜性Arena CLI,SDKFlink,SparkTensorflow,PyTorch,Mxnet,Hovorod,PAI-DLCOther backends CRDKubernetes/DockerGPU/GPU/NPUEthemet/RDMA
9、Hadoop/OSS/CPFS/NASKubernetesArenaImprove the engineering efficiency提升工程效率多容器共享GPU,提升運行密度從單個GPU設備入手GPU分配策略,避免資源碎片GPU顯存維度池化,新老卡統一利用GPU彈性伸縮,優化持有成本GPU拓撲感知調度,保證分布式訓練通信最大帶寬從多GPU集群入手訓練任務調度,規避資源爭搶分布式緩存加速,減少GPU等待數據從GPU作業入手GPU computing is powerful,but expensive;GPU bought a lot,but idleGPU算力強大,但貴;GPU買了不少,但閑
10、推理GPU共享和隔離Kubernetes GPU 共享調度器ACK提供GPU共享調度,支持所有Nvidia Tesla GPU型號cGPU 支持GPU顯存、計算單元隔離和動態調整,且無侵入cGPU Container RuntimePOD1/8 GPUPOD1/4 GPUPOD1/2 GPUPOD1/1 GPUGPU實例、VM、神龍等cGPU容器虛擬化Nvidia驅動cGPUDevicePluginArenaPrometheusGPU Sharing SchedulerGPU SharingAutoScalerKubeflowcGPU Container RuntimeDevice Plugi
11、nGPU ExporterKubeletMasterACKgpu0WorkerAI model1 Pod1AI model2 Pod1gpu0gpu0Utilization rate of the GPUGPU利用率互聯網業務的特點會有周期性的波峰波谷,支持可隨時伸縮的架構ServiceMesh 服務治理能力,提升業務連續性、穩定性、可靠性多 AZ or 單 AZ 的服務能力,提升業務容災能力服務的持續部署、可觀測集群間服務拷貝、流量切換、熔斷、降級資源的合理利用、0 業務研發參與基礎資源的標準化解決問題Business architecture業務架構Deployment architect
12、ure部署架構雙生產集群,業務流量可按比例雙邊部署Kong 作為核心 API 網關,負責流量按比例轉發到兩個集群自研 Controller 同步 SVC endpoint 至 Kong Cluster 多個集群均依賴 autoscaler 實現資源全自動伸縮自研基于 Velero 的集群間資源復制&順序啟動基于 ArgoCD 的 GitOps 持續部署流程基于 Istio 的服務網格&治理Deployment architecture部署架構Elasticity of the cost optimization成本優化之彈性RI 是什么:Reserved Instances,先給一部分錢保證資
13、源的同時,拿到比較好的折扣。Spot 是什么:Spot Instances,廠商總有一些邊角料沒切好 or 基礎機器算多了,導致總有那么些機器多出來了,那么我們就可以上去競價啦!OD 是什么:OnDemand Instances,按量付費,用多少算多少。Saving Plan 是什么:Savings Plans,一個基于算力的統一機器池概念。RISpotOnDemandElasticity of the cost optimization成本優化之彈性集成 KFServing,Seldon開源AI推理服務框架,支持 Tensorflow-serving,Triton 等推理服務器支持按量、競價
14、實例和 Spot fleet 組合,性價比優化支持 ECS,ECI 混合彈性,自定義彈性策略自動彈性伸縮PodPodPodPodECS虛擬機PodPodPodPod神龍裸金屬PodPodPodPodGPU 實例PodPodPodPod50%90%成本節省競價實例PodPodPodPod虛擬節點PodPodPodPodPodHPA 水平伸縮PodPodPodPodPodPod定時伸縮KubernetesPodPodVPA 垂直伸縮應用伸縮資源伸縮Elasticity of the cost optimization成本優化之彈性定時伸縮資源推薦平衡 Spot&OD依據非 CPU&MEM 的用戶自定義伸縮CronHPACustomHPARRCloudSaveRI 預留實例Saving Plan 節省計劃相對于固定節點,彈性降低60%資源Big DataSpark/Flink/Presto 容器化離/在線混部AIOpsK8sSome AmazingLooking Forward未來展望THANKS