《曲寧-從Data 到DataNAI_對外_云器科技_202407.pdf》由會員分享,可在線閱讀,更多相關《曲寧-從Data 到DataNAI_對外_云器科技_202407.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、從Data到Data+AI數據基礎設施第三次演進的觀察與思考演講人:曲寧 云器科技產品總監2024.7.5Agenda010203當前數據平臺發展現狀綜述面向未來的幾個發展趨勢和未解難題新一代數據平臺架構演進思路與驗證云器科技版權所有2023,迎來數據平臺技術第三次革命1.1970年代,數據庫時代1.關系型(relational model)數據庫和SQL(Structured Query Language)奠定了理論基礎2.誕生了包括Oracle、SqlServer在內的優秀數據庫產品3.大多數數據應用創新(例如BI),來自數據庫時代2.2000年代,大數據時代 Google 搜索業務需求奠
2、基大數據領域(規模驅動創新),GFS、BigTable、MapReduce三篇奠基論文1.海量數據與低成本,分布式架構,通用處理能力(Not only SQL)2.Hadoop、Snowflake、BigQuery3.2022年,大模型時代1.傳統算法類AI一直伴隨數據時代,但一直不是主流2.2010年代深度學習奠基,2016AlphaGo3.2017 Transformer(Seq2Seq,Attention)、2020 GPT-3、2023 ChatGPT(規模驅動創新)4.三要素:模型、算力、數據云器科技版權所有2023,迎來數據平臺技術第三次革命第一次革命:數據庫(Oracle,500
3、億營收,5%增長率)第二次革命:BigData(Snowflake,20億營收,50%增長率)第三次革命:AGI云器科技版權所有2023,數據平臺技術架構的“變”與“不變”云器科技版權所有當下的主流數據平臺架構是怎樣的?上述內容來源于絡公開信息DataLake存儲系統Data WarehouseBatchProcessingStreaming ProcessingReal-TimeAnalytics結構化數據 處理/分析存儲存儲存儲存儲數據源數據應用AI Processing/ServingTraining PlatformOLTP DatabaseVia CDCOperational log
4、(App、Web)IoT Data(Sensor、Agent)Files(Unstructured)ReportingAd hoc AnalyticsApp(Operational Analytics)AI處理/訓練/服務Agenda010203當前數據平臺發展現狀綜述面向未來的幾個發展趨勢和未解難題新一代數據平臺架構演進思路與驗證云器科技版權所有結構化數據分析架構,開始定型“不變”,主要挑戰?典型的結構化數據分析架構圖Data Lake存儲系統Data WarehouseBatch ProcessingStreaming ProcessingReal-TimeAnalytics結構化數據 處
5、理/分析存儲存儲存儲存儲1.存儲層,數據湖和數據倉庫尚未真正統一2.組裝式數據架構仍然復雜,異構存儲,多套元數據,帶來大量的計算和存儲冗余和管理成本。極高的數據管理成本和開發成本3.組裝式數據架構缺乏滿足業務變化的靈活性。云器科技版權所有結構化數據分析演進之一 湖倉一體(圖:數據湖與數倉技術優勢對比)1.2023年,湖倉一體成為“事實標準”(2019年提出)2.Iceberg 成為數據湖表格式標準的贏家(Snowflake/Databricks 2023年先后宣布支持)3.湖倉一體架構仍然多樣,幾個普遍認可的設計:1.*一套*數據,具備*一致*性(其他層次上的數據用Cache抽象)2.開放性,
6、數據都可以被*所有*應用訪問3.統一的元數據中心云器科技版權所有結構化數據分析演進之二 “云原生”變成架構概念1.“云原生”從云的概念變成一個架構概念。私有化部署也遵循“云原生”架構。例如:1.存儲/資源/網絡的統一化/池化2.存算分離3.計算資源共享(混部)4.應用的微服務化和無服務化2.IaaS層接口標準化,架構層次上的解偶/分層進一步發生進一步發生,存儲、資源、網絡等架構模塊進一步解偶開,并在能力/效率/成本上進化1.例如:AWS S3 Express OneZone(10 x,40%)3.AGI對上述架構提出更高的要求,架構升級按經典螺旋方式發展1.面向LLM/LMM訓練的高性能存儲體
7、系,例如VastData2.高密度訓練帶來Scale-Up架構的復興3.從高效的AI推理框架,到AI Cloudhttps:/ 計算引擎的一體化Data freshnessResource Cost Query PerformanceBatch ProcessingRTAnalyticsStreamingProcessing數據處理的“不可能三角”,流、批、交互分別面向一個方向優化1.統一的接口,統一的語法/語義,統一且開放的數據表達(使得可以被其他引擎/工具消費)2.提供面向數據新鮮度、查詢性能和資源成本三方面的多種平衡點(而不是面向三個頂點的極致優化)3.支持在平衡點之間做簡單靈活的調節4
8、.多種指標達到/超過當前主流產品的水平一體化分析引擎架構的設計目標一體化分析引擎架構的設計目標下一代的數據平臺架構的推薦架構DataLake存儲系統Data WarehouseBatch ProcessingStreaming ProcessingReal-TimeAnalytics結構化數據 處理/分析數據源數據應用AI Processing/ServingRAG/AgentOLTP DatabaseVia CDCOperational log(App、Web)IoT Data(Sensor、Agent)Files(Unstructured)ReportingAd hoc Analytics
9、App(Operational Analytics)AI處理/訓練/服務數據存儲,湖倉一體架構作為數據底盤。數據分析,Single Engine一體化引擎。AI/ML,面向未來可擴展的設計。Single Engine下一代的數據平臺架構的推薦架構Lakehouse存儲系統結構化數據 處理/分析數據源數據應用OLTP DatabaseVia CDCOperational log(App、Web)IoT Data(Sensor、Agent)Files(Unstructured)ReportingAd hoc AnalyticsApp(Operational Analytics)Single Eng
10、ineAIOps數據存儲,湖倉一體架構作為數據底盤。數據分析,Single Engine一體化引擎。AI/ML,面向未來可擴展的設計。RAG/AgentAI Processing/ServingAgenda010203當前數據平臺發展現狀綜述面向未來的幾個發展趨勢和未解難題新一代數據平臺架構演進思路與驗證云器科技版權所有“變化中的”AI 新計算范式的四個趨勢趨勢1:數據平臺體系架構從1:1 到 M:NStructured Data Processing and Analytics(SQL、Dataframe)Structured Data Storage(Data Warehouse)Stru
11、ctured Data Processing and Analytics(SQL、Dataframe)Structured Data Storage(Data Warehouse)LLMSemi-structured(Text)DeepLearning/MultiModelUnstructured(Video、Audio)AI給結構化數據提供了新的處理能力數據融合處理成為關鍵能力AI 擴展了能夠處理的數據類型云器科技版權所有“變化中的”AI 新計算范式的四個趨勢 AGI三要素:模型+算力+數據,前兩者目前高度同質化 海量+高質量數據,是預訓練模型效果的前提(包含各種行業模型,比如Bloombe
12、rgGPT)私有數據,是模型最終落地的前提(構建RAG的核心)大部分task是其實數據處理范疇,AGI是數據平臺的第三級推動力趨勢2:Data Centric AI-*數據*是AGI時代最的Differentiator(表:Data-centric Artificial Intelligence:A Survey)RAG云器科技版權所有“變化中的”AI 新計算范式的四個趨勢趨勢3:數據平臺架構重回搜索時代 達到一定水準的RAGRAG是大模型落地的必選項 面向未來看,所有數據都可以被抽象成知識庫(是個更大的概念)面向AGI的知識庫構建和服務,有搜索引擎原理和流程非常類似 相似的流程:收集=分片=
13、索引建立=索引服務=召回=排序=處理=輸出 相關性、Precision和Recall等是最核心指標(而不是性能)云器科技版權所有“變化中的”AI 新計算范式的四個趨勢趨勢3:數據平臺架構重回搜索時代 達到一定水準的RAGRAG是大模型落地的必選項 面向未來看,所有數據都可以被抽象成知識庫(是個更大的概念)面向AGI的知識庫構建和服務,有搜索引擎原理和流程非常類似 相似的流程:收集=分片=索引建立=索引服務=召回=排序=處理=輸出 相關性、Precision和Recall等是最核心指標(而不是僅僅性能)大數據平臺又是搜索的底層支持Infra云器科技版權所有“變化中的”AI 新計算范式的四個趨勢趨
14、勢4:統元數據管理,重要性提升10倍,構建難度也提升10倍DarkDark DataData (80%)(80%)can be bright-AI技術進步,半/非結構化數據,有機會被理解和使用 Started by DeepLearning(但僅僅是識別,不是理解)Data Fabric/Unified CatalogKnowledgeKnowledge extractionextraction、understandingunderstanding is is hardhard andand expensiveexpensive(eveneven withwith LLM/LMMLLM/LMM
15、)TraditionalTraditional DL2TagDL2Tag basedbased approachapproach is is notnot genericgeneric Is VectorSearch+LMM a valid way?三個未解決的難題疑問:SQL VS Python,當動代碼成成為主流,贏家會是誰?1.SQL最終成為數據庫和大數據的主流開發接口 聲明式編程(Declarative)天然的易用性和普適性2.隨著大模型/AGI發展,編程開始走到輔助編程(Copilot)階段三個未解決的難題疑問:數據平臺的“動駕駛”多久能實現?1.智能BI/取數是繼對話問答(Chat
16、GPT)之后的第二大場景2.隨著大模型/AGI發展,Copilot成為標配3.但智能BI僅僅是自動駕駛的第一步圖13:我們好奇并期待:何時AI能夠讓數據平臺進“動駕駛”時代?三個未解決的難題疑問三:半/結構化數據,知識的*顯式*表達最終式是什么1.結構化數據的顯式表達就是表,數據被最終提取出來形成表格(二維relation)2.半/非結構化數據,目前采用兩種方式表達:1.成為大模型的一部分2.向量化之后進入向量引擎(所謂的知識庫)3.但向量和大模型都是隱式表達,不可解釋/控制,而LLM落地最大的問題就是可解釋性4.所以當下普遍的的解法:1.提供溯源的能力2.建立其他顯示表達方式(比如知識圖譜)5.目前仍然是開放問題!Thank You!歡迎關注云器科技公眾號了解更多