《PPIO 模型平臺出海實戰跨地域業務擴展中的技術優化之道-王聞宇.pdf》由會員分享,可在線閱讀,更多相關《PPIO 模型平臺出海實戰跨地域業務擴展中的技術優化之道-王聞宇.pdf(47頁珍藏版)》請在三個皮匠報告上搜索。
1、PPIO派歐云模型平臺出海實戰出海中的技術優化之道出海中的技術優化之道PPIO派歐云 聯合創始人&CTO 王聞宇TheThe NextNext ChinaChina isis ChineseChinese技術型連續創業者,2004年參與中國第一代互聯網視頻服務PPTV(PPlive)的創立,從第一行代碼構建了 PPTV 的分布式視頻服務,并創新多項 P2P 直播技術,服務全球近5億用戶;2014年二次創業極豆車聯網,研發了中國首個車載智能系統“極豆OS”,產品服務于奧迪、寶馬、奔馳等國際知名車廠;2018年聯合創辦 PPIO派歐云,聚焦分布式算力。技術領域主要聚焦在分布式計算、云原生、AI I
2、nfra 等。擁有20多年的分布式網絡技術和音視頻云服務架構經驗,發表邊緣計算、人工智能、大模型相關 SCI 論文15篇(其中CCF-A/中科院1區8篇),申請并授權發明專利20余件。王聞宇王聞宇閑置數據機房空間閑置數據機房空間企業閑置算力資源企業閑置算力資源整合資源提供服務區域DC匯聚機房挖礦閑置接入機房中小企業機房節點間SDN互聯運營商機房邊緣容器云邊緣裸金屬云IaaSPaaS音視頻類實時云渲染類AI推理類中心云用戶終端云原生云邊協同分布式調度管理接入網就近連接MAN/LAN/5G RANPPIO派歐云:整合分布式資源我們為什么要出海我們為什么要出海需求在出海大量成功出海 App中國工程師
3、紅利開放自由的市場中美科技博弈中美科技博弈我們的我們的AIAI出海分布式云產品出海分布式云產品架構APIhttps:/novita.aiModel-HostingServerlesshttps:/PodsBareMetalhttps:/novita.aihttps:/出海的過程中有哪些困難出海的過程中有哪些困難人生地不熟語言問題文化問題宗教問題PLGProduct lead growthFLGFounder lead growthSLGSales lead growth抓住不變的需求抓住不變的需求找到“第一性原理”推理一直持續的需求,未來的推理成本一定持續降低,并伴隨著用量規模的持續增加我們要
4、十年時間持續做的事情就是,怎么在做到滿足需求的情況,讓推理的性價比足夠高為什么推理成本會持續很貴為什么推理成本會持續很貴生產資料昂貴Scaling LawLLM 參數和序列都還在擴大視頻生成的到來超長序列推理優化深挖還不夠分布式云分布式云,生產資料不同地方成本不同,生產資料不同地方成本不同我們在是怎么把推理成本降下來的我們在是怎么把推理成本降下來的降低生產資料成本推理加速模型壓縮降低 GPU成本降低電費降低其他場地/運維分布式云全球網絡加速Serverless中美海底光纜的發展中美海底光纜的發展CUCN:2000年啟用,中美海纜(China-US Cable Network,CUCN),1.2
5、8Tbps;2016年退役;TPE:2008年9月建成,跨太平洋快線(Trans-Pacific Express,TPE),又稱橫太平洋快速海纜,達5.12TbpsNCP:2018年建成投產,新跨太平洋海纜(New Cross Pacific Cable Network,簡稱:NCP)是第一代CUCN 的容量的1050倍,82Tbps中國到東南亞海底光纜的發展中國到東南亞海底光纜的發展APCN-22001年投產,亞太2號海底電纜;總容量 2.56TbpsAAG2009年11月10日就緒,亞太直達海底光纜 2.88TbpsAPG亞太直達海纜,2016年就緒,54.8Tbps,使得 CUCN 正式
6、退休ADC亞洲直達海纜,香港段,2023年建成??沙休d超過 140 Tbps其實跨國網絡非常復雜其實跨國網絡非常復雜丟包率高晚高峰 15-20%,甚至 40%延遲高晚高峰 250ms 左右速率限制大忙時比閑時下降明顯雖然海底光纜在不斷的擴大容量,但是中國出海網絡仍然面臨巨大挑戰我們需要在上層構造一個智能跨國加速我們需要在上層構造一個智能跨國加速如何構建一個低延時、大帶寬、低抖動、低成本的網絡是我們的一個命題動態最優路徑選擇+UDP 可靠傳輸+傳輸協議優化 是最優的解決方案優化優化1:1:動態最優路近選擇動態最優路近選擇加速服務Agent上車點(A)中轉服務(B1)下車點(C)目標下一跳權重CB
7、1100CB230中轉服務(B2)目標下一跳權重CC100目標下一跳權重CC100RouterCenterKSP 最短路徑RouterCenter 依據轉發服務上報的水位信息,使用KSP算法定期生成最短路徑分段路徑下發定期進行路徑下發,將最優路徑拆分并分別下發給加速網絡去中心化能力加速網絡擁有去中心化的能力,可以在RouterCenter 異常時正常服務節點自治能力節點間質量的自動探測,保證鏈路質量的可用性路徑下發質量探測質量探測水位上報優化優化2:2:因地制宜,實現可控的因地制宜,實現可控的 UDPUDP 傳輸傳輸協議背景&特點特點擁塞算法優點缺點UDTUDT 被廣泛用于高性能計算,用于光纖
8、網絡上的高速數據傳輸NACK、ACK2基于對數的動態 AIMD高吞吐量、低延遲不適合高延遲網絡uTPBitTorrent 公司開發,用于 P2P 文件共享LEDBAT簡單、輕量級不適合擁塞的網絡KCP廣泛用于網絡游戲、游戲加速器、視頻推流等場景UNA+ACK非延遲 ACKRTO 不翻倍低延遲、低丟包率不適合高延遲網絡Quic多路復用、連接遷移、0-1RTTCubic、BBR、PCC可插拔安全、可靠實現復雜,性能開銷較大優化優化3 3:我們基于:我們基于 ACNPACNP 來優化傳輸協議來優化傳輸協議 化繁為簡多路復用、多路傳輸、QPACK、簡化協議頭 擁塞控制低延時模式 vs 大帶寬模式 AR
9、Q更高效和支持更大范圍的 SACK亂序度優化的 RACK FEC低延時模式下,利用空閑帶寬發送 FEC大帶寬模式下,重傳包使用 FECIPTLSTCPHTTP1/2UDP流控制/擁塞控制TLS多路復用QPACKHTTP3UDP流控制/擁塞控制數據加密連接遷移應用層ACNPQUIC比 QUIC 更輕量化!比 KCP 更完善&安全 !比 QUIC,延時降低 40%40%比 KCP,延時降低 20%20%效果展示效果展示 跨國跨國 APIAPI 請求請求單進程下載:50-100倍速度提升多進程下載:500倍速度提升,速率可達1000MbpsServerlessServerless 架構理念架構理念彈
10、性伸縮,自動按需擴縮容,極高的彈性按需付費,用多少資源就花多少錢,不用為閑置資源來買單免運維,不需要管理底層資源,以及高度的自動化和自愈能力Serverless 的本質是為客戶提供更好的用戶體驗提供 Serverless Inference Endpoint,客戶直接訪問 API,減少客戶在業務無關層面上的投入,使客戶更加聚焦業務降低客戶資源成本,彈性按需使用算力資源,不使用則0成本但 Serverless 也會對云服務提供方帶來一些挑戰面對海量突發的流量請求,云平臺需要高效的調度請求和擴縮容服務消除底層異構資源差異,提供標準的統一的容器環境資源全部由云服務托管,需要解決資源不足的問題,想要的
11、時候就能獲得算力資源ClientServerless Inference EndpointServerless Automtic ScalingUnified Docker RuntimeDistributed Infrastructure ManagementServerless Inference Platform傳統的 GPU 容器云解決了算力的使用問題,但沒有解決算力的易用問題分布式分布式 ServerlessServerless 推理平臺推理平臺 完全按需彈性,無使用無成本 基于池技術,首實例秒級啟動 故障自愈,異常請求重調度 實例狀態實時監測,自動負載均衡我們怎么實現的我們怎么實現
12、的 ServerlessServerless 彈性調度彈性調度 可彈性擴容至第三方云 理論上可無限擴容 基于多云實現容災 平衡穩定性與成本我們怎么實現的我們怎么實現的 ServerlessServerless 跨云擴容跨云擴容 兼容常見四種算力資源 提供統一虛擬運行環境 遵循容器運行時規范 支持主動健康檢查 支持任務的快速切換我們怎么實現的我們怎么實現的 ServerlessServerless 虛擬運行環境虛擬運行環境0%20%40%60%80%100%120%啟動時間請求異常率算力成本項目上線時間裸金屬實例Serverless線上 TOP1 出??蛻魯祿?,每日GPU峰值80卡70%90%4
13、0%60%通過網絡加速通過網絡加速 +Serverless Serverless 的效果的效果13B fp16多卡并行使多卡并行使MBUMBU變小變小多卡并行讓理論時延變長多卡并行讓理論時延變長顯存算力帶寬制約性能的三要素制約性能的三要素:顯存、算力、帶寬顯存、算力、帶寬QuantizationSparsity computingFlashAttention:4x upQKVFused Attentionin SRAMOO(N2)=O(N)ContinuousBatching:8x up paddingseq 2paddingseq 3 paddingseq 4paddingseq 1seq
14、5seq 2seq 6seq 3seq 7seq 4seq 8seq 1padding removedWeight-Only&KV Cached:2x upFP8 End-to-End:4x up(Ada&Hopper)Sparse KV-Cache:10 x upSparse Activation:8x upINPUTFP16WeightINT8WeightINT4WeightFP16TensorCoreFP16KV-CacheINT8OutPUTFP16INPUTFP8WeightFP8TransformerOUTPUTFP16TensorCoreFP8Self AttenFP8FFNFP
15、8KV CacheFP8Act.FP8KV CacheO(T2)=O(TL)LLM WeightsCPU for Cold neuronGPU for Cold neuronBasic Optimization派歐算力云:派歐算力云:推理優化,數倍加速推理優化,數倍加速注意力:本質是注意力:本質是 Query/Key/ValueQuery/Key/Value 三個矩陣的運算三個矩陣的運算自回歸自回歸(AutoRegressiveAutoRegressive):當前:當前 QueryQuery 需要需要遍歷序列中所有歷史遍歷序列中所有歷史 TokenTokenKeyKey&ValueValue
16、的緩存非常有必要:避免每次生的緩存非常有必要:避免每次生成成(decode)(decode)新新 TokenToken 時重復計算歷史時重復計算歷史 TokenTokenABCDEFGcontextdecodeAttention&MLPKV CacheConcat(K),Concat(V)auto regressiveappend k and v算子融合基礎:注意力及算子融合基礎:注意力及 KVKV-CacheCacheFlashAttention:4x upQKVFused Attentionin SRAMOO(N2)=O(N)paddingseq 2paddingseq 3 padding
17、seq 4paddingseq 1seq 5seq 2seq 6seq 3seq 7seq 4seq 8seq 1padding removedPageAttention:4x upContinuousBatching:8x upPrefix Caching:4x up我們實踐過的無損壓縮方案我們實踐過的無損壓縮方案BlackwellBlackwellHopperHopperAda LovelaceAda LovelaceTensor CoreCUDA Core代表型號FP64,TF32,BF16,FP16,FP8,INT8,FP6,FP4FP64,TF32,BF16,FP16,FP8,INT
18、8FP64,TF32,BF16,FP16FP64,TF32,BF16,FP16,INT8B100,B200H100,H800,H20L20,L40S,RTX4090FP64,TF32,BF16,FP16,INT8FP64,TF32,BF16,FP16,FP8,INT8,INT4AmpereAmpereFP64,TF32,BF16,FP16,INT8,INT4,INT1FP64,FP32,FP16,BF16,INT8A100,RTX3090浮點數和浮點數和 GPUGPU 的支持的支持FP16 weightsFP8 weightsconvertEmbeddingAttentionFFNFP8Lin
19、ear+SoftmaxFP8FP8Tokenx N KV-CacheActivationFP8FP8 TensorCoreEnd-to-End FP8 inferenceFP8FP8讓吞吐提升讓吞吐提升4 4倍倍FP8FP8 全鏈路量化,存儲和計算的全面提升全鏈路量化,存儲和計算的全面提升稀疏化的硬件優化稀疏化的硬件優化WeightsOffline SolverCalibrate Dataloadlight trainCold neuronnetwork(90%)Hot neuronnetwork(10%)splitCPU Inference(rarely)GPU Inference(most
20、ly)mergeOutputAttentionActivateAttentionActivate稀疏化計算:權重稀疏,減少計算量稀疏化計算:權重稀疏,減少計算量在有限長度的 KV Cache 中,驅逐與 Query 相關度低的 KV 值永久保留 KV Cache 中靠前的 KV 值Decoding 時用較少的 KV 實現較長 KV 的效果稀疏化計算:稀疏化計算:KV CacheKV Cache 稀疏,減少存儲,支持長窗口稀疏,減少存儲,支持長窗口Transformer算法深度優化投機采樣專門推理芯片的支持 下一步下一步還有還有的優化空間的優化空間AMD ROCm AMD ROCm 推理加速優化
21、推理加速優化昇騰昇騰 AtlasAtlas 推理方案適配和優化推理方案適配和優化燧原燧原 S60S60 推理方案適配和優化推理方案適配和優化線性注意力機制線性注意力機制優化 Softmax 算子,使用少量中間狀態對全局注意力信息建模,復雜度降低到線性線性線性KVCacheKVCache機制機制優化 KVCache 存儲算法,僅保存一層鍵值數據,將緩存空間復雜度降低到線性共享注意力機制共享注意力機制針對顯存優化,通過細粒度切分,讓注意力數據更容易共享,提升顯存利用率MedusaMedusa機制機制在隱藏層增加多個 Head,讓其并行解碼后面的內容,組合輸出結果,提高效率前瞻編碼前瞻編碼將模型解碼分成多個預測分支和一個驗證分支,預測分支并行解碼,最后交由驗證分支統一輸出,提高并行度和效率多階段投機解碼多階段投機解碼將草稿模型按重要性重構為樹形結構,從而分階段執行投機解碼,提升解碼有效性和總體效率音視頻編解碼分布式云+Serverless網絡傳輸成本AI推理加速/模型壓縮 回顧過去回顧過去3030年:在線音視頻的發展年:在線音視頻的發展202320252027推理算力爆發2029推理成本大幅下降(10X-100X)AIAI 推理成本推理成本AIGCAIGC 流量流量“Affordability”is all you need未來未來訓練算力爆發歡迎掃碼交個朋友