《破局全球AI算力-技術出海的關鍵決策與實踐指南(public).pdf》由會員分享,可在線閱讀,更多相關《破局全球AI算力-技術出海的關鍵決策與實踐指南(public).pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、破局全球AI算力:技術出海的關鍵決策與實踐指南PPIO派歐云聯合創始人&CTO 王聞宇王聞宇技術型連續創業者,2004年參與中國第一代互聯網視頻服務PPTV(PPlive)的創立,從第一行代碼構建了PPTV 的分布式視頻服務,并創新多項 P2P 直播技術,服務全球近5億用戶;2014年二次創業極豆車聯網,研發了中國首個車載智能系統“極豆OS”,產品服務于奧迪、寶馬、奔馳等國際知名車廠;2018年聯合創辦PPIO派歐云,聚焦分布式算力。技術領域主要聚焦在分布式計算、云原生、AI Infra 等。擁有20多年的分布式網絡技術和音視頻云服務架構經驗,發表邊緣計算、人工智能、大模型相關SCI 論文15
2、篇(其中CCF-A/中科院1區8篇),申請并授權發明專利20余件。為什么出海最近那么熱需求在出海大量成功出海 App開放自由的市場中國工程師紅利海外vs國內應用發展的差異和邏輯輯海外海外國內國內需求來源ToC爆發ToB/ToG創新主導Developer/Startup大廠創新團隊規模 幾個人,十幾個人幾十人/幾百人技術心智拿來主義自研主義邏輯差異:1.資本市場差異2.市場自由程度3.流量公正性4.科技成本差異DeepSeek R1 之后,貌似市場情況有些改觀,出海ToC創業公司心智初創期快速驗證產品,不在乎成本/數據/獨特性;調用Chatgpt(RAG+Agents)等閉源接口增長期開始關注成
3、本,推理成本占比40%,收到賬單后阿彩發現好貴,開始嘗試開源模型,調廉價開源模型API壁壘期開始思考如果建立特色,在乎數據,在乎獨特性,嘗試自有數據的Fine-tuning,堅定基于開源優化模型科學家型創業公司例外23年 Llama 開源的剛出現國內海外娛樂類 toC App弱AI場景(對智能要求不高)API調用量高速增長私有化+Fine-tuning 潮大量公司,認為自己可以部署一套行業“ChatGPT”無需考慮性能問題,無需考慮數據隱私問題但是 Llama的中文能力不行,Llama 無信息管制于是用自己的行業數據去做 Llama 的Fine-tuning 成行業數據很快,出現了大量 私有化
4、 Fine-tuning的機會25年 DeepSeek R1剛出現國內海外大量主流場景從 OpenAI-DeepSeek強AI場景(對智能要求高)效果差不多推理成本1/20開源私有化+Distill 潮大廠App 從自研模型 DeepSeek大量公司,認為自己可以部署一套自己的 R 1但是很快發現,部署滿血版的成本太高了,H20 x8x2于是開始部署蒸餾模型,或者用自己問題對滿血版做蒸餾,然后再去Fine-tune Llama3或者QWen我們為什么做海外公司基因:更善于做市場化需求技術能力:技術能力硬,面對海外公司有些獨特的優勢啟動市場:跟著大量中國出海App一起出海市場更大:海外原生Glo
5、bal市場更大2023202320232023訓練算力爆發推理算力爆發推理成本大幅下降(10X-100X)AI 推理成本AIGC 流量“Affordability”is all you need抓住不變的需求:找到“第一性原理”推理一直持續的需求,未來的推理成本一定持續降低,并伴隨著用量規模的持續增加我們要十年時間持續做的事情就是,怎么在做到滿足需求的情況,讓推理的性價比足夠高。派歐算力云:適合推理的云閑置數據機房空間企業閑置算力資源整合資源提供服務區域DC匯聚機房專業服務IDC接入機房中小企業機房節點間SDN互聯運營商機房邊緣容器云邊緣裸金屬云IaaSPaaS音視頻類實時云渲染類AI推理類中
6、心云用戶終端云原生云邊協同分布式調度管理接入網就近連接MAN/LAN/5G RANPPIO派歐云技術實踐指南為什么推理成本會持續很貴生產資料昂貴ScalingLawLLM 參數和序列都還在擴大視頻生成的到來超長序列發展太快還沒有深度優化我們在是怎么把推理成本降下來的降低生產資料成本分布式云降低 GPU成本降低電費降低其他場地/運維推理加速模型壓縮全球網絡加速Serverless分布式云充分動員市場社會驅動力算力新基建新質生產力閑置利用技術驅動力CloudNativeDevOps/AIOps高性能網絡彈性和調度經濟驅動力投資掙錢靈活就業共同富裕便宜的生產資料-GPU-能源全球供應鏈價格洼地同地域
7、 大區服務分布式Serverless 推理平臺傳統的 GPU 容器云解決了算力的使用問題,但沒有解決算力的易用問題Serverless 的本質是為客戶提供更好的用戶體驗提供 Serverless Inference Endpoint,客戶直接訪問API,減少客戶在業務無關層面上的投入,使客戶更加聚焦業務降低客戶資源成本,彈性按需使用算力資源,不使用則0成本本但 Serverless 也會對云服務提供方帶來一些挑戰面對海量突發的流量請求,云平臺需要高效的調度請求和擴縮容服務消除底層異構資源差異,提供標準的統一的容器環境資源全部由云服務托管,需要解決資源不足的問題,想要的時候就能獲得算力資源Cli
8、entServerless Inference EndpointServerless AutomticScalingUnified Docker RuntimeDistributed Infrastructure ManagementServerless Inference Platform精細化運營,充分發揮機器利用率優化三要素:顯存、算力、帶寬顯存算力帶寬最終使得同樣的模型,同樣的卡,更好的性能(吐字更多),單Token的成本就降低了推理算力,數倍加速paddingseq 2paddingseq 3paddingseq 4paddingseq 1seq 5seq 2seq 6seq 3se
9、q 7seq 4seq 8seq 1padding removedContinuousBatching:Prefix Caching:PageAttention:Sparse KV-Cache:KV CacheO(T2)=O(TL)Sparse Activation:LLM WeightsCPU for Cold neuronGPU for Cold neuronFP8 QuantizationINPUTFP8WeightFP8WeightFP8WeightFP9TensorCoreFP8KV-CacheFP8OutPUTFP8Speculative SamplingSpeculative DocodingPrefill Decode Disaggregation基于DeepSeek的專屬優化化FlashMLAFP8(DeepGEMM)PD分離MTP優化EP(DeepEP)DP,TP,PPSpeculative decoding持續Following DeepSeek官方發布的AI Infra技術智能未來,探索AI無限可能TKANKSIntelligent Future,Exploring the Boundless Possibilities of Al