1、DataFunConDataFunCon#20242024阿里云大數據阿里云大數據AIAI一體化最佳實一體化最佳實踐(數據開發視角)踐(數據開發視角)劉一鳴(合一)阿里云 自研大數據產品負責人ContentsContents目錄目錄大數據AI開發范式的變化阿里云大數據AI一體化架構演進Data+AI場景實踐分享0101 大數據大數據AIAI開發范式的變化開發范式的變化Data+AI 典型開發生命周期DataData +AIAI數據預處理數據預處理對數據進行清洗加工、數據轉換、特征選擇、特征提取等數據準備數據準備對數據進行初步分析,了解數據分布及字段指標情況模型評估模型評估 將模型預測結果與實際
2、結果進行對比,從而得到模型的準確率模型部署模型部署對模型進行部署發布,從而實現模型流程化使用模型訓練模型訓練為達成高識別率的目標,使用大數據,找出最優配置參數模型開發模型開發選擇多種數據挖掘技術(SQL、Python等)和工具進行模型創建以數據為中心的模型開發ModelDataModel-centric AIModelDataData-centric AISource:A Chat with Andrew on MLOps:From Model-centric to Data-centric AlData-centric MLModel-centric MLWorking on code is
3、 the central objectiveWorking on data is the central objectiveOptimizing the model so it can deal with the noisein the dataRather than gathering more data,moreinvestment is being made in data quality tools towork on noisy datainconsistent data labelsData consistency is keyData is fixed after standar
4、d preprocessingCode/algorithms are fixedModel is improved iterativelyIterated the data qualityData+AI 項目成功關鍵點算力(基礎設施)數據(80%)模型(20%)大規模 CPU 算力 大規模 GPU 算力高速網絡海量結構化、非結構化數據管理大規模數據處理模型訓練、推理模型管理案例1:離在線一體的智能推薦系統用戶行為日志實時計算Flink特征庫批流統一樣本生成(Flink)樣本庫批流統一樣模型訓練(PAI-TF)數據分析實時分析 Hologres批量分析 MaxCompute模型中心模型1模型n在
5、線預測模型部署模型驗證離線計算MaxCompute案例2:知識庫檢索增強的大模型問答系統原始技術/產品文檔MaxCompute/Hologres/DataWorks/PAI/Flink文本 TextCHUNKQ&ACHUNKQ&A創建embeddings知識審核Embedding ModelBEG/SGPT/text2vec文本提取PDFTXT數據整理格式統一產品標簽QA提取/語義切換數據清洗超鏈替換完整問題 PAI能做什么idcontentembeddingdoc_ididPAI是阿里云0.1,-0.1,0.1PAIidmapjoin內存限制0.5,0.2,0.9MCidPAI可以幫助用戶0
6、.8,-0.1,0.7PAIidHolo遷移數據0.6,0.9-1.1HoloHologres/Elasticsearch/FAISS上下文 PAI是什么+本輪query 它能做什么LLM(+SFT?)ChatGPT/Qwen/創建embeddingsEmbedding ModelBEG/SGPT/text2vec融合上下文問題改寫向量檢索Prompt Engineering超鏈提取/精準輸出/推理部署結果流式/BladeLLMLLM(+SFT?)ChatGPT/Qwen/完整問題+相關知識基于1,2,3回答PAI能做什么LLM生成相關知識1.PAI是阿里云2.PAI可以幫助用戶3.PAI支持
7、CPU/GPU向量檢索庫構建搜索結果Data+AI 開發痛點:成本、效率、運維效率效率運維運維成本成本 數據開發與模型開發脫節數據開發與模型開發脫節:多種角色(數據工程師、數據分析師、數據科學家),多個平臺(大數據平臺進行數據處理、加工,AI平臺中進行模型建模、訓練),多種語言(SQL&Python),數據遷移,流程割裂,溝通成本高 性能擴展能力差性能擴展能力差,訓練效率低訓練效率低:本地Local模式且未經過性能優化,難以滿足企業大規模數據處理和模型訓練的性能要求 工程化實現工程化實現,缺少統一運維管理缺少統一運維管理:自建、采購多方系統,搭建環境及日常運維成本高,難以滿足企業級安全要求,造
8、成安全風險;開發過程脆弱,不具備魯棒性;數據類型多數據類型多,數據管理能力差數據管理能力差:結構化及非結構化,不同的存儲介質,數據孤島性能、開發效率、訓練效率安全性、魯棒性、易用性、管理學習成本、溝通成本、運維成本Data+AI 一體化大數據AI算法優化算法優化數據支撐數據支撐14321432統一數據管理海量彈性CPU資源管理分布式計算大規模數據處理統一模型管理海量彈性GPU資源管理可視化模型開發分布式模型訓練0202 阿里云大數據阿里云大數據AIAI一體化架一體化架構演進構演進大數據AI全景:從基礎設施到應用服務計算資源調度服務ODPS 大數據計算集群PAI-靈駿智能計算集群云原生通用計算集
9、群智能搜推服務大數據開發與治理-DataWorks人工智能平臺PAI-AI開發應用場景模型模型服務智能推薦PAI-Rec開放搜索 OpenSearch人工智能平臺PAI-模型API服務人工智能平臺PAI-模型最佳實踐開源模型社區PAI-靈積PAI-智碼實驗室數字人智能設計智慧法律智能海關智能物流工業枧覺電子商務城市大腦智能交互智慧醫疔自動駕駛通義-千問/聽悟/萬相通義-專屬大模型百川LlamaAI for Science云原生大數據平臺ODPS數據上云開源大數據服務人工智能平臺PAI-AI開發大數據AI一體化PaaS平臺海量數據加工(SOL、Python)ODPS-MaxCompute交互式數
10、據分析ODPS-Hologres流式計算Flink結構化數據集成Hadoop數據遷移計算基礎設施CPUGPU高性能RDMA網絡文件存儲CPFS對象存儲OSSNAS分布式存儲 盤古EMR(Spark、StarRocks)DLFElasticsearch生態模型服務PAI-EAS智算服務PAI-靈駿AI加速引擎PAI-ACC分布式訓練PAI-DLCDW數據建模DW數據開發DW數據治理DW數據質量DW數據安全交互式建模PAI-DSW可視化建模PAI-DesignerMLOpsPAI-OuickStart數據標注PAI-Itag特征工程PAI-FeatureStore企業級Serverless智能數倉
11、MaxCompute架構演進MaxCompute 1.0MaxCompute 1.0(2013-2017)5K集群調度規模SQL引擎性能MaxCompute 2.0(2017-2020)Serverless彈性存算分離MaxCompute 3.0(2020-2023)湖倉一體架構離線實時一體MaxCompute 4.0(2023-)開放架構DataData +AIAIMaxCompute 4.0MaxCompute 3.0逐步向智能化演進,構建AI時代數據基礎設施MaxCompute 2.0Serverless云原生服務:成本、彈性、托管From“Gartner Reference.Archi
12、tecture for Multi-tenancy”G00205983MultitenancyMultitenancy1SharedNothing2SharedHardware3SharedOS4SharedDatabase5SharedContainer6SharedEverything7SharedMultitenancyApplicationLogicApplicationPlatformDataPlatformManagedVirtual MachinesManagedOS ProcessesTenantTenantApp.App.APAPDPDPSys.Inf.Sys.Inf.Ten
13、antTenantApp.App.APAPDPDPSystem InfrastructureTenantTenantApp.App.APAPDPDPSystem InfrastructureTenantTenantApp.App.APAPCloud-EnabledData PlatformSystem InfrastructureTenantTenantApplicationLogicCloud-EnabledApplication PlatformDPDPSystem InfrastructureTenantTenantApplicationLogicCloud-EnabledApplica
14、tion PlatformCloud-EnabledData PlatformSystem InfrastructureTenantTenantCloud-EnabledApplication LogicApplication PlatformData PlatformSystem Infrastructure高高技術復雜度低低低低單位計算成本高高高高資源共享程度低低數據平臺 Data+AI 核心創新統一數據管理統一數據管理OpenOpen LakeLake分布式計算框架分布式計算框架 MaxFrameMaxFrame交互式開發環境交互式開發環境NotebookNotebook鏡像管理鏡像管理
15、ImageImage各類數據統一管理,計算引擎統一對接統一Python編程接口,高效分布式計算能力,內建數據處理算子開箱即用的開發環境,交互式開發內置第三方依賴包及通用模型,用戶自定義鏡像管理數據管理能力演進:聯邦、湖倉、非結構化數據能自由連通數據能高效連通數據更合理連通數據聯邦階段數據聯邦階段 第一階段:以聯邦為核心場景,構建元數信息、權限、擴展框架等基礎能力能更簡單的訪問OSS數據能更高性能的訪問OSS數據能更低成本的訪問OSS數據湖倉一體階段湖倉一體階段 第二階段:以數據湖為核心場景,提高數據易用性,開放性,增強性能建設 第三階段:以AI為核心場景,增強對非結構化數據統一管理及使用能力多
16、模態數據統一管理多模態數據預處理訪問加速POSIX文件協議支持 .面向面向AIAI的數據管理階段的數據管理階段外表聯邦分析批量外表映射數據安全體系MaxCompute&Hologres離在線一體化托管三方HadoopOSS外表查詢加速External Schema/VolumePaimon/Hudi/Delta湖表支持Object Table 多模態數據管理Object Table 查詢優化外部數據緩存加速原生非結構化數據管理 Object TableObject Table使用靈活以表的形式管理外部非結構化數據,使用高效統一通過SQL、Python對作業修改、發布,操作簡單查詢優化查詢實現列
17、裁剪、過濾條件下推,減少數據訪問支持按照數據對象實際Size切分,消除數據傾斜緩存加速緩存對象列表和元信息,減少直接訪問OSS基于事務表記錄每次更新,實現元信息版本化寫入支持支持數據寫入能力,形成數據流閉環海量小文件讀取性能某圖像處理作業,輸入數據規模為存儲在OSS上的四千萬小文件(單個文件幾十KB,總量1TB+),在cache hit后,FDC可以帶來66倍倍的讀取性能提升。性能提升性能提升6666倍倍性能提升性能提升100100倍倍單個文件讀取性能某圖像處理作業,輸入數據規模為存儲在OSS上的TFRecord文件(單個文件幾十GB),采用FDC加速,在cache hit后,FDC可以帶來約
18、100倍倍的讀取性能提升。分布式計算框架MaxFrameMaxFrame是由阿里云自研的分布式計算框架分布式計算框架,支持Python編程接口編程接口并可直接復用MaxCompute計算資源及數據接口,用戶可以以更熟悉、高效、靈活的方式利用MaxCompute的海量計算資源及數據進行大規模數據處理、可視化數據探索分析以及科學計算、ML/AI開發等工作。分布式計算框架 MaxFramePandas兼容、分布式Data+AI一體化Pipeline開箱即用的開發體驗MaxCompute彈性計算資源MaxCompute海量數據資源復用數據直讀Python開發生態大規模數據處理可視化數據探索科學計算ML
19、/AI開發MaxFrame核心能力更熟悉的開發生態MaxFrame 兼容 Python 開發生態,提供 MaxCompute Python 生態統一開發接口,通過一份 Python Code 實現 Data+AI 開發完整流程更快的處理性能MaxFrame 可直連 MaxCompute 數據,運行時無需將數據拉取至本地計算,消除了不必要的本地數據傳輸,提高執行效率MaxFrame 可直接使用 MaxCompute 海量彈性計算資源,并支持自動分布式、并行處理,大幅縮短數據處理的時間。更完善的算子支持MaxFrame 兼容 Pandas 接口且自動進行分布式處理,在保證強大數據處理能力的同時,大
20、幅度提高數據處理規模及計算效率更便捷的開發體驗MaxFrame 已與 MaxCompute Notebook、DataWorks 集成,無需配置環境即可直接使用,同時 MaxFrame 也支持在本地環境安裝使用MaxFrame 支持直接引用 MaxCompute 內置鏡像及用戶自定義鏡像,降低開發環境準備時間,避免環境版本沖突。PythonPython CodeCodeDAGDAG DriverDriverSingerSinger PythonPython EngineEngineSQLSQL EngineEngineOnOn RayRay EngineEngineSPESPE SubDAGS
21、ubDAGSPESPE RunnerRunnerSQLSQL SubDAGSubDAGSQLSQL RunnerRunnerOnOn RayRay SubDAGSubDAGOnOn RayRay RunnerRunner客戶端客戶端執行層執行層編程接口編程接口支持豐富算子庫(數據分析、文本預處理)已經兼容的Panda算子LLM數據預處理算子支持文件后綴過濾MD5去重文本標準化特殊內容移除特殊字符占比過濾Copyright信息移除計數過濾長度過濾語種識別和過濾敏感詞過濾敏感信息打碼文章內句子去重文本質量打分(Fast Text)文章相似度去重N-Gram重復比率過濾擴展LaTeX宏定義刪除LaT
22、eX參考文獻刪除LaTeX注釋行刪除LaTeX文檔頭Filter/IndexingFilter/Indexingdropdrop_duplicatesheadProjectionProjectionastypefrom_pandasread_odps_tableto_odps_table SortingSortingsort_valuessort_indexJoin/MergeJoin/Mergemerge(left/right/inner/outer)concat(axis=1)/joinconcat(axis=0)/unionUDFUDFDataFrame.transformPlottin
23、gPlottingplotAggregateAggregateall,any,count,max,mean,min,nunique,sem,std,sum,varaggReshuffle其他其他except/intersect/limit/setdiff/switch/union.面向海量數據處理場景極致的性能提升RedPajama是一個開源大語言模型項目,提供了大量高質量的數據集用于數據處理、大模型訓練,我們通過RedPajama提供的8億多條樣本數據進行性能測試,涉及preprocess、document_deduplicator、clean_copyright_mapper等多個數據預處
24、理算子。0510152025preprocessread+unifydocument_deduplicatorclean_copyright_mappemaximum_line_length_filteraverage_line_length_filteralphanumeric_filterexport基于開源算子進行處理基于開源算子對8億數據進行預處理工作總耗時59小時基于MaxCompute MaxFrame對8億數據進行預處理工作總耗時1.3小時小時1.3h1.3hMaxFrameMaxFrame鏡像管理:內置鏡像+自定義鏡像MaxCompute提供鏡像管理功能,內置鏡像倉庫,對鏡像進
25、行統一管理:內置用戶常用鏡像、支持用戶自定義鏡像,同時支持鏡像熱備,降低用戶鏡像、UDF使用及環境準備的成本,提升用戶的開發及使用體驗。支持鏡像熱備支持鏡像熱備MaxCompute鏡像管理功能基于MaxCompute內置的鏡像倉庫,支持鏡像熱備,用戶使用鏡像時可隨時快速拉起內置豐富鏡像內置豐富鏡像MaxCompute內置豐富的基礎鏡像,如Python、Pandas、NumPy、Scikit-learn等,用戶也可按需上傳自定義鏡像,面向數據分析、數據挖掘場景需求可直接拉起鏡像構建基礎環境,減少用戶環境準備工作開發使用便捷開發使用便捷無需復雜的打包、注冊流程,通過flag方式指定鏡像即可生效租戶
26、共享租戶共享內置鏡像及用戶自定義鏡像可在MaxCompute租戶內進行共享,減少租戶內不同用戶的環境準備工作,同時避免因不同開發環境帶來的各種沖突問題實時數倉Holgores+向量引擎ProximaHologresHologres =更好的多維分析更好的多維分析 +更好的向量計算更好的向量計算 +更好的點查更好的點查 +更簡的運維更簡的運維Hologres與達摩院自研向量引擎Proxima深度集成,提供高PQS、低延時的向量計算服務高性能高性能 通過一體化數倉,提供低延時、高吞吐的在線向量查詢服務 支持向量數據實時寫入與更新,寫入即可查高易用性高易用性 統一SQL查詢接口查詢向量數據,兼容Po
27、stgreSQL生態 支持復雜過濾條件向量檢索企業級能力企業級能力 向量計算與存儲資源靈活水平擴展 支持主從實例架構、計算組實例架構,支持計算資源物理隔離,實現企業級高可用能力HologresHologres +ProximaProximaProximaProxima達摩院自研向量引擎,穩定性、性能優于Faiss等開源產品共啟 數創新時代高性能&低成本多場景&異構計算向量&標簽&正排高維&高精度 自主研發流式實時&CRUD超大規模Hologres豐富的向量計算場景IDsTextsImagesNetworkAudioIDTextImageNetworkAudio向量化向量化ID結構化數據向量數據
28、向量數據存儲融合查詢結構化數據過濾+向量數據召回向量檢索向量檢索實時推薦大模型LLM推理求解以圖搜圖30.1,0.20.7a20.1,0.20.7b10.1,0.20.7a實時數倉Hologres原始數據Hologres融合查詢SELECT rid,pm_approx_inner_product_distance(r_emb,?)AS distanceFROM cand_emb_tbWHERE r_sex=1234567ORDER BY distance ASCLIMIT 10;向量檢索結構化數據過濾傳統方案傳統方案 Faiss等開源向量引擎完成向量檢索 MySQL等傳統數據庫完成結構化數據過
29、濾HologresHologres 一個引擎,一份存儲 一體化體驗數據分析從 BI BI+AIDataWorks Copilot,數據開發智能提效30%+數據開發與分析效率提升Prompt Engineering數據集成數據建模數據開發數據治理數據分析與服務DataWorksCopilotAI智能助手DataWorks一站式開發治理平臺SQL大模型一站式平臺沉淀領域知識AI加速數據開發效率開源DDL+NLSQL數據(Hive)中文通用對話數據有監督微調基礎開源大模型底座業務DDL+NLSQL數據(MC)元數據數據模型數據血緣數據指標企業專屬領域知識DataWorksDataWorksCopil
30、ot Copilot 全新發布全新發布表快捷查找/SQL生成/SQL改寫SQL糾錯/SQL解釋與注釋對話式自然語言交互界面*以上結果依據真實場景數據估算,最終效果以實際產品和場景測試數據為準DataWorks AI增強分析:講好數據故事結合大模型技術,通過自然語言指令,即可生成 SQL 查詢數據AI 智能數據查詢一鍵生成數據長圖報告,支持多種精美主題隨意切換,輕松打造個性化數據可視化作品,并支持一鍵分享一鍵構建和分享數據報告結合 AI 技術,數據圖表卡片自動生成,提供多樣化的可視化表現方式,幫助您快速獲得靈感、保存見解AI 自動數據圖表生成統一自動探查數據集,無需專業技術背景即可快速了解數據內
31、容、統計分布自動數據探查DataWorks聯合DataV數據可視化,深度結合AI技術,幫助你講好數據故事,表達數據觀點0303 Data+AIData+AI 場景實踐分享場景實踐分享LLM數據處理原始數據數據處理數據處理算子數據處理算子文本近似去重敏感詞過濾MD5去重Copyright信息去除文本標準化數據讀取模型訓練自定義鏡像自定義鏡像Resiliparse、archspec、boltons、Brotli、certify、cryptography、distro、idna、jsonpatch、jsonp MaxFrame 統一Python編輯接口、內建LLM數據處理算子、分布式計算數據質量的好
32、壞直接影響大模型訓練、推理的最終效果相比昂貴的GPU資源,MaxCompute的海量彈性CPU資源能夠成為LLM海量數據處理的資源基礎,而基于MaxCompute自定義鏡像、MaxFrame分布式計算能力可以幫助用戶更加高效、便捷的完成LLM數據處理工作LLM數據處理-文本去重在LLM大模型的訓練中,文本數據的去重起著至關重要的作用,通過文本去重可以大大提升模型訓練的效率,通過MaxCompute MaxFrame可實現對原始數據大規模、并行處理,從而以更高的處理速度和更大的處理量完成大模型處理工作數據讀取文本分詞計算 MinHash近似最近鄰搜索MinHashLSH原始文本去重LLM數據處理
33、-自定義鏡像構建LLM文本去重處理主要使用jieba、mmh3(MinHash)、tokenizers、NumPy、SciPy等數十個第三庫,可基于MaxCompute鏡像管理功能構建自定義鏡像,并上傳至MaxCompute鏡像倉庫進行統一管理。LLM數據處理-Python開發Data(MC table)MaxFrame DataFramepreprocessJieba分詞Hash ComputeN-gramMinHashApplyMaxCompute CU數據讀取為MaxFrame DataFrame進行數據 清洗過濾進行文本分詞進行Hash計算提交任務至MaxCompute分布式執行自動分
34、布式、并發處理MaxFrame對數據處理任務進行自動切分,同時利用MaxCompute海量彈性計算資源進行分布式、并發執行,極大提高數據處理執行效率。Data+AI Pipeline調度通過PAI designer 完成對LLM數據處理、LLM模型訓練、推理等Data+AI整體流程開發。開發效率70709 90%0%計算性能環境準備10103 30%0%大數據AI一體化大數據AI大模型智能問答知識庫智能數倉智能數據治理智能搜索推薦數據支撐算法優化數據湖數據倉庫數據處理分布式計算數據科學計算機器學習深度學習模型開發模型訓練模型推理本周開始 MaxFrame 在華東2(上海)、華南1(深圳)、西南1(成都)地域開始開放試用,其他地域也將陸續開放,按照用戶 MaxComputeProject 進行加白,在 MaxFrame 邀測期間,每個租戶可在購買頁面領取 5000CU 的免費資源,用于抵扣 MaxFrame 計算資源費用。MaxFrame邀測形式MaxFrame 對客戶材料MaxFrame官網詳情頁:https:/ 5000CU免費資源領用:https:/common- 后續商業化MaxFrame 后續商業化支持后付費及預付費,后付費按照 0.66 CU 時計費