1、AI 模型時代的多模態數據存儲、管理和應用Alex Chen阿里云智能集團-研究員2026 中國 AI支出占亞太的 58%智能客戶服務,業務創新和自動化,銷售流程,IT 優化,欺詐分析2026 年亞太地區 AI 支出5 年復合增長 24.5%*Source:IDC Worldwide Artificial Intelligence Spending Guide,2023495 TFLOPS2x200G RDMA 32 Core144 TB Mem 1EFLOPSGPUDPUAI 服務器萬卡集群XX分布式訓練容錯多租戶隔離和調度規模復雜度軟件復雜度架構復雜度原始數據集訓練數據集數據預處理模型訓練
2、模型驗證反復訓練優化不斷訓練優化數據收集場景化精調模型驗證模型部署推理內容安全模型部署服務推理結果輸出輸入內存墻:模型參數量增長 10 倍算力:模型計算量增長 68 倍多模態:從單一的文本(2 KB)變成文本、圖片(200 KB)、音視頻(MB)混合單個樣本的數據量(Token)大幅增加 模型、參數量模型參數計算量GPT-3(175B)350GB314 ZFLOPSGPT-4(1800B)3.6TB21500 ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k單個樣本的Token 量20494096819232768GPT-3 模型訓練內存需求=參數+梯度+優化器+其他 2
3、.8TB 80GB(A100 顯存大小)GPU 顯存幾乎沒有變化,GPU 單卡的算力只增長了 3 倍CPU 卡顯存大小計算量A100/A80080GB156 TFLOPSH100/H80080GB459 TFLOPS訓練框架利用數據并行、模型并行、流水線并行等技術將數據、模型切片到 GPU 卡上分布式計算每個 iteration 結束時利用高速網絡在所有 GPU 上 all reduce 同步模型參數GPU 卡規模越大,對高速網絡、可靠存儲要求更高算法工程師要經常檢查模型質量,如果學習率不夠就要利用 checkpoint 回溯、參數調優后再繼續訓練Initialize trainingList
4、 files in dataset and shuffle/隨機打散數據Prepare MP&PP/規劃模型并發,流水線并發Repeat(for each batch):/迭代多輪 iterationRead file for the batch/讀取一批數據用于訓練TrainingAll reduce/所有 GPU 同步模型參數Checkpoint if necessary/周期性 checkpointCPU1b 模型切片,加載到 GPUGPT-3(175B)GPT-4(1800B)模型分片FwdBack數據分片4)all-reduce,更新模型參數3)SGDCPUCPUCPUall-red
5、uce模型并行數據并行5)周期性生成checkpoint1)數據shuffle、切片2)讀取數據集分片iterations文件類型文件類型樣本數據集:海量小文件,比如 Laion-5B 數據量 250TB,涉及文件數約 100 億IO Pattern每個 GPU 32 路并發讀集群并發讀 6百萬 QPSIO Pattern大塊寫模型文件,16 個 GPU 節點 30 秒寫完模型文件,單節點寫吞吐 1GB/s每張 GPU 卡單路大塊寫優化器狀態文件,2048 卡并發寫總帶寬 48GB/s文件類型文件類型(以以 200B 參數參數、2064 卡為例卡為例)模型文件:16x8 GPU 節點,128
6、個 3GB 文件,約 384GB優化器狀態文件:2048 GPU 的 zero 優化器狀態,2048 個 1.2GB 文件,約2.4TBIO Pattern每張 GPU 卡單路大塊讀模型文件、優化器狀態文件,并發讀總帶寬 60GB/sCPUsdatapartdatapartdatapartdatapartdatasetCPUsoptimstatemodeloptimstateoptimstatecheckpointCPUsoptimstatemodeloptimstateoptimstatecheckpoint視頻文件小文件(特征幀)讀取文件寫小文件小文件讀取小文件小文件刪除小文件某客戶的視頻
7、推理存儲性能需求視頻第1幀第2幀第 T 幀圖像分類模型幀特征 x1圖像分類模型幀特征 x2圖像分類模型幀特征 xT平均匯合視頻特征 z全連接層類別預測分布式元數據分布式元數據:小文件規模最大 100 億,具備百萬 QPS 元數據處理能力,比如 lookup,getattr,open 等高性能存儲介質和高性能存儲介質和高性能高性能網絡網絡:NVMe SSD 和 2*100G RDMA,checkpoint 大塊順序讀寫,低延時和高吞吐P2P P2P 分布式讀緩存分布式讀緩存:每張 GPU 讀取同一份模型 checkpoint,集群并發讀,需要具備最高百 GB/s 吞吐能力數據并行數據并行寫寫:每
8、張 GPU 讀寫各自的優化器狀態,集群并發寫,需要具備超過 50GB/s 吞吐能力CPFS CPFS 數據服務全分布式架構目錄樹服務數據服務目錄樹服務數據服務目錄樹服務數據服務目錄樹服務400 Gbps Lossy RDMA文件鎖服務文件鎖服務文件鎖服務文件鎖服務CPFS ClientCPFS ClientElastic File ClientElastic File ClientElastic File Client分布式I/O計算節點并行與所有存儲服務器同時讀取數據目錄樹結構切分到多臺服務節點支撐百億文件百億文件下仍可提供超高元數據性能實現目錄樹動態的負載均衡避免目錄熱點單個文件的讀寫均勻
9、分布至多個存儲節點單集群最大支持單集群最大支持 2TB/s 2TB/s 吞吐,吞吐,3000 3000 萬萬 IOPSIOPS客戶端支持鏈接層高可用,鏈路問題秒級別切換客戶端元數據緩存,查詢操作無需跨越網絡操作速度提升10 倍,與本地 EXT4 性能相媲美客戶端提供端到端 I/O 指標,便捷調查訪問熱點和 I/O 瓶頸客戶端分布式讀緩存,有效加速重復訪問的熱數據讀速度,帶寬和緩存池隨計算規模增大而提升萬卡GPU集群應用應用文件客戶端文件客戶端CPFSCPFS存儲節點存儲節點Elastic File ClientElastic File Client元數據緩存GPUGPU 服務器服務器GPUGP
10、U 服務器服務器AI 應用/PAI-DLC、TensorFlow、PyTorch.存儲節點存儲節點多鏈接多鏈接元數據緩存.分布式數據讀緩存計算服務高性能文件存儲RDMA海量數據的存儲成本優化海量數據的存儲成本優化OSS 提供低成本海量數據存儲最低 0.75分/GB/月事件驅動的高效元數據同步OSS 數據變動在 CPFS 中分鐘級可見數據塊粒度流動,多并發技術可實現百 Gbps 流動性能支持配合任務調度預加載或隨 I/O 讀取 LazyloadPAI-DLC、Porch、TensorFlowAIAI 訓練訓練CPFSCPFS 文件系統文件系統OSSOSS 數據湖存儲數據湖存儲對象接口POSIX
11、接口OSS 數據湖存儲OSS OSS 冷歸檔和深度冷歸檔冷歸檔和深度冷歸檔如何找到高質量數據呢?如何找到高質量數據呢?高質量的數據是高質量的數據是模型迭代的核心模型迭代的核心生成 Bucket 維度的元數據管理庫支持 9 大類元數據索引條件篩選提供 5 種聚合輸出方式數十億文件秒級完成數據索引支持 Object 粒度的搜索與聚合數據更新后 10 秒內更新至索引池數據管理數據審計數據監管元數據組合條件索引自定義聚合輸出秒級返回結果元數據管理庫元數據管理庫存儲類型、讀寫權限、文件名、上傳類型、最后修改時間、文件大小、對象 tag、對象 Etag、對象版本對象存儲對象存儲 OSSOSS通過對存儲類型
12、、Object 標簽及最后修改時間等條件設定,快速完成 Bucket 的文件掃描實現秒級文件名模糊搜索、數據聚合、按 Object 標簽進行文件篩選等能力提高數據掃描與管理效率-業務案例:“汽車”“街道”“都市”標簽-但沒有“自駕游”這種對內容具有概括能力的語義標簽-業務案例:“服裝”“綜藝”“美女”標簽 -但沒有“明星走秀”這周對視頻具有內容語義描述能力的標簽原子標簽對視頻描述能力不足堆疊標簽數量無法滿足業務需求需要使用“原子標簽+語義標簽”的方式提高視頻理解深度蘋果小孩蘋果小孩小孩吃蘋果以文搜圖/視頻,圖搜圖/視頻以及“文字+圖片”組合搜索精確過濾等多種模態搜索模式非結構化數據標量索引向量
13、索引全文索引圖片文本Embedding多模態圖像描述模型信息提取文本提取時空信息提取分層共享存儲(Auto-tiered Storage)寬表引擎索引引擎存儲引擎(Data Storage&Index)通道引擎(CDC)數據訂閱數據投遞 多模型接口(Multi-Model&APIs)統一查詢接口(SQL)向量引擎(Proxima)AI EmbeddingAI Embedding+向量 API+向量 UDF以文搜圖、視頻、以文搜圖、視頻、文本、語音文本、語音文本分割、問題分析(聊天歷史)、答案推理文本分割、問題分析(聊天歷史)、答案推理智能媒體管理智能媒體管理分布式水平擴展全托管支持自定義 Sc
14、hema 信息向量+條件過濾組合查詢大規模向量索引流式構建向量狀態變更即時生效快速實現增刪改查功能大規模數據低延遲查詢自研高效查詢算法ProxiamProxiam SE SEProxiamProxiam DE DEProxiamProxiam CE CEDashVectorDashVector實現了對大數據的高性能相似性搜索云原生分布式大規模向量的高性能、高可靠、高可用相似性搜索支持百萬量級 TopK 向量召回支持多類目召回基于 Proxima 內核面對非結構化數據提供高效的向量管理和相似向量查詢功能與存儲原生集成無需移動,自動處理文本、圖片、視頻支持多模態內容審核場景化構建元數據管理快速實現
15、應用FPGA 硬件實現多種格式編碼,熱點計算和壓縮對象存儲 OSS文件存儲 NAS多媒體處理引擎文檔預覽與編輯文檔轉換AI 內容審核圖片 AI語音識別數據管理與索引索引聚類故事生成數據處理工作流網盤云相冊AI 應用社交圖庫家庭監控文件解壓縮讓不可能變為可能讓不可能變為可能應用層的創新應用層的創新生產效率的提升生產效率的提升體驗是競爭力:1 秒的延遲導致 7%的用戶流失業務迭代快:55%應用每周或每天發布更新基礎設施與架構革新:混合云、云原生容器化微服務 DevOps運維數據多樣化:數據容量、種類、可變性增加DevOps 為了調查問題,需花費數小時查找、對比、分析SecOps 為了調查 Case
16、,需在百 TB 數據中抽絲剝繭數據聯合:融合分析、全鏈路可觀測更易使用:無需維護多套系統、易擴展、免運維降低噪聲:有效通知、便于正確響應減少故障時間:自動檢測異常、快速根因診斷交互式根因分析NL2SQL 智能問答時序/鏈路異常檢測日志自動標注Trace 基礎模型時序基礎模型日志基礎模型logmetrictrace通義模型知識智能運維模型智能運維模型指標異常檢測、日志文本智能分詞Trace 鏈路高延時診斷智能問答智能問答分析運維場景多模態數據基于通義千問 NL2Query 技術人工輔助微調人工輔助微調人工標注、結果打標修正模型根據人工反饋自動微調基礎模型開箱即用快速擴容和服務遷移通用模型靈活擴展
17、通用模型靈活擴展游戲服務系統調用、依賴關系復雜,任何階段出問題都可能導致游戲操作失敗或卡頓,影響玩家用戶體驗根據服務中的 Trace 數據自動生成拓撲圖圍繞高延時分析、高錯誤率分析、系統熱點和瓶頸進行分析和診斷縮短問題處理時間,優化系統延時在海量 Trace 中快速定位異常根因和性能瓶頸無需人工干預,提高大規模分布式系統異常定位效率數千請求秒級定位根因,在生產中準確率達 95%探測導致 Trace 高延時或錯誤的服務關聯 Log/Trace/Metric,自動檢測根因預測微服務系統的性能瓶頸將 Trace 聚合,找到 Trace 的 Pattern快速找到相同錯誤類型的報錯15:23 共有 1
18、 個入口服務產生 2880 條慢 Trace 其中入口服務 Front-end 的 POST/jordrg 發現次數最多共出現共出現 28802880 次占次占100.0%100.0%在根因分析結果中,主機 pay-ment-5b7dBd684b-zjtzv 出現比例最高,其中共出現共出現 28922892 次占次占 34.0%34.0%在根因分析結果中,服務 payment 出現比例最高,其中共出現共出現 28922892 次占次占 99.0%99.0%在根因分析結果中,方法 POST/payment-tAuth 出現比例最高,其中共出現共出現 28922892 次占次占 99.0%99.0
19、%SLS Mall 共有 12 個服務,45 個入口接口,在選擇的時間段中,共產生了 1641195條Trace,其中請求平均延遲 21288.11ms21288.11ms 全棧數據 關聯分析 異常檢測 故障檢測 智能化診斷AIAI 基礎設施基礎設施ITIT 優化優化GPU495 TFLOPSDPU2x200G RDMA 32 CoreAI 服務器144TB Mem,1EFLOPS大規模高性能網絡高性能低成本存儲靈駿AIOps AIOps 業務流程業務流程收集:收集:構建 AI 基礎設施的可觀測數據資源池,簡化數據訪問組織:組織:優化數據治理,改善數據質量,提高訪問效率分析:分析:“數據”+“
20、建?!?,高效分析關聯數據洞察:洞察:智能化診斷,實現高效的問題定位AI 應用融合分析訓練效率與準確率數據效率與安全性統一的數據視圖以數據為基礎以數據為基礎AIOps 通過收集、組織、分析和融合數據,實現對 AI 基礎設施的監控管理和智能異常分析數據準備模型訓練與部署應用與內容生成內容分發與協作數據準備/分析/標注 模型持久化內容安全管理內容分發協作模型訓練與推理Hadoop 應用HTTP 應用HDFS 協議/OSS 對象協議HDFS 元數據(目錄分層空間)對象元數據(扁平命名空間)AI 訓練與推理文件存儲 CPFSPOSIX/MPI-IO/NFS文本違規檢測圖片違規檢測視頻違規檢測圖片水印版權
21、溯源原圖保護IMM&OSS 數據處理媒體處理辦公協同在線轉碼AI 分析圖片分類權限管控協同編輯日志審計網盤與相冊服務 PDS以對象存儲 OSS 為底座,構建統一數據湖模型選型效果驗證完整覆蓋 AI 標注、開發、訓練、推理一體化全鏈路的 AI 工程平臺,全面提升行業、產業落地的三個效率模型開發機器學習 PAI|DSW 模型訓練機器學習 PAI|DLC 機器學習 PAI|分布式訓練框架 EPL/TorchAcc 數據準備機器學習 PAI|iTAG ModelScope|模型庫 ModelScope|在線體驗 機器學習 PAI|靈駿智算服務深度優化機器學習 PAI|DLC 發布服務機器學習 PAI|
22、EAS 機器學習 PAI|BladeFineTune機器學習 PAI|DSW 機器學習 PAI|EPL/TorchAcc 機器學習 PAI|靈駿智算服務1000+開源模型,模型下載次數 6000+萬,覆蓋 NLP、CV、語音、多模態等各個領域,尤其是 AIGC、LLM 等大模型云原生的 AI 工程化平臺支撐模型開發、訓練、推理、部署全鏈路強大算力強大算力ITIT 基礎設施優化基礎設施優化可靠存儲、高效網絡、強大算力全鏈路 AI 工程平臺支持大規模分布式訓練和推理高質量數據高質量數據AIAI 的關鍵生產力的關鍵生產力用 AI 的方法找數據向量索引聚合圖像/視頻/多模態數據搜索應用創新應用創新提升生產效率提升生產效率以數據為基礎AIOps 實現對 AI 基礎設施監控管理和智能異常分析