《大模型時代下基于湖倉一體的數據智能新范式 .pdf》由會員分享,可在線閱讀,更多相關《大模型時代下基于湖倉一體的數據智能新范式 .pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunDataFun#20242024大模型時代下,基于湖倉一體的數據智能新范式陳蘢久-阿里云-高級產品專家目錄1.大模型爆發帶來的數據行業變革3.阿里云AnalyticDB:在AIGC時代下,驅動企業架構升級2.對于企業數據平臺的能力變革要求大模型時代來臨2023.3.142023.3.162023.3.172022.112023.4.112023.2.25ChatGPT 3.5發布大語言模型的價值被初步證明Meta開源LLAMA開啟GPT競賽時代ChatGPT 4.0MidJourney V5Microsoft 365 Copilot通義千問2023.5.6Google模型模型PA
2、LM2行業模型Med-PaLM 2和sec-PaLM22023.3.23ChatGPT Retrieval Plugin2023.7.28阿里云模型服務靈積阿里云模型服務靈積支持商業化部署ChatGLM2,LLAMA2等模型企業知識增強企業知識增強模型即服務模型即服務(Model-as-a-Service)2024.2.15多模態大模型多模態大模型將語義與圖像將語義與圖像進行深度理解融合進行深度理解融合2023年底年底國家大模型評測標準阿里,百度,騰訊,3602023年年S2百模大戰百模大戰近近100大模型大模型覆蓋基礎大語言模型行業大模型多模態大模型2023.3.15深化產業影響,驅動全行業
3、能力升級(信息來源于艾瑞咨詢發布的2023年中國年中國AIGC產業全景報告產業全景報告AIGC帶來的產業變革趨勢帶來的產業變革趨勢1.內容生產效率將帶來快速變革內容生產效率將帶來快速變革對于游戲,電商,廣告等行業,大模型將帶來50%70%的開發效率提升,同時門檻降低將引入新玩家,帶來行業快速變革2.垂直領域隨著大模型能力深入持續變革垂直領域隨著大模型能力深入持續變革對于垂直領域企業,存在著線上+實體的結合趨勢,更加依賴對于專業性的考量,會隨著LLM能力升級,持續性進行產業能力升級;3.高度信息化安全的強監管部門的底層變革高度信息化安全的強監管部門的底層變革對于信息化安全等級較高的,對于數據具有
4、重政府監管企業,將會關注政策導向,數據安全及能力演進,這類企業需要自底向上的全盤思考,有序推進,最終實現全行業擁抱;數據規模大幅增長數據質量要求提升數據安全規范升級全行業擁抱AIGC的全新要求AIGC分層能力一覽LLM 大語言模型醫療金融.安全fine-tune企業服務知識庫模型服務商fine-tune知識庫知識庫知識庫.企業知識增強企業知識增強(RAG+私有模型私有模型)fine-tunefine-tune零售企業專屬知識企業專屬模型行業模型通用大模型實時企業信息企業級特征公司當前最火產品行業特征泛化能力公司主售什么產品零售的定義零售行業業務流程模型模型領域能力領域能力可回答的問題可回答的問
5、題目錄1.大模型爆發帶來的數據行業變革3.阿里云AnalyticDB:在AIGC時代下,驅動企業架構升級2.企業數據平臺的能力挑戰自頂向下的體驗變革+自底向上的能力變革應用層應用層1.內容服務的要求數據來源更加豐富2.在于用戶交互過程中的數據覆蓋面積提升3.智能化的數據在線加工能力更強平臺工具層平臺工具層1.智能開發效率進一步提升;2.面向垂直行業屬性的開發鏈路更智能3.開發工具和大模型+加速降低技術使用門檻基礎層基礎層1.更高的數據質量用于賦能模型訓練;2.更豐富數據類型處理能力;3.海量數據的存儲和IT成本平衡(圖片來源于艾瑞咨詢發布的2023年中國年中國AIGC產業全景報告產業全景報告)
6、當前數據平臺能力瓶頸企業知識圖像視頻音頻對話地理時空傳統數據平臺AIGC應用智能數據分析智能決策海量多模數據生成大模型原生處理能力亟待增強原生處理能力亟待增強1.1.僅可處理結構化數據僅可處理結構化數據2.2.不支持海量多模數據處不支持海量多模數據處3.3.不支持異構算力不支持異構算力4.4.缺少大模型缺少大模型+AIAI結合能力結合能力向量數據半結構化數據非結構化數據多模數據.大數據+大模型能力大模型調優及部署應用層應用層 添加文字內容 添加文字內容 添加文字內容0101平臺工具側平臺工具側0202基礎基礎層層0303背景背景LLM能力增加了業務場景的數據需求范圍,參與業務支持的數據量大幅膨
7、脹核心訴求核心訴求海量數據需要直接支持應用集成方式更加靈活背景背景基于大模型能力帶來更加高效的開發和數據的分析能力核心訴求核心訴求更高效的開發工具更智能的數據分析更易用的數據處理工具背景背景10X的數據量支持LLM多模的數據處理能力高價值數據留存增長核心訴求核心訴求低成本的存儲高質量數據的處理能力異構算力的加持場景場景企業知識庫,客服等場景場景企業數據開發、分析平臺場景場景AI原生的企業數據平臺數據平臺趨勢分解一站式智能數據平臺架構多模型服務平臺DashScope,PAI等目錄1.大模型爆發帶來的數據行業變革3.阿里云AnalyticDB:在AIGC時代下,驅動企業架構升級2.企業數據平臺的能
8、力挑戰云原生向量數據倉庫 AnalyticDBAnalyticDBAnalyticDB(PostgreSQLPostgreSQL版版)阿里云自研的云原生數據庫阿里云自研的云原生數據庫能力完備,累計服務近千企業,被多個世界500強企業選為核心數倉系統;于2020年評測為TPC-H 30T 性價比世界第一;自研向量檢索向量檢索和多模數據多模數據處理能力(2020年),廣泛應用于RAG,以圖搜圖,檢索推薦等場景;國內云廠商中唯一被多個AIGC知名社區推薦的自研向量數據庫;目前已廣泛服務于互聯網,教育,傳媒,電商,公安等眾多行業;TPC-H Performance/Price Ranking(data
9、 collect in 2020)OpenAI recommanded Vector EngineAnalyticDB on Langchain CommunityAnalyticDB 一站式湖倉設計產品優勢產品優勢AIAI ServiceService:對接和集成各類LLM以及模型服務API,并且提供例如Chunking、Embeddings等各種RAG所需服務AIAI增強分析平臺(倉內智能):增強分析平臺(倉內智能):基于大語言模型重塑傳統數據分析和開發的全鏈路核心能力企業數據管理企業數據管理:存儲結構化、非結構化、半結構化數據;一份數據,無數據冗余和一致性問題企業級特性企業級特性:支持事
10、務、ACID、主備切換、冷熱分層、備份恢復、加密、審計日志數據安全數據安全:全量數據均在用戶域內,無數據泄露風險;ADB-PG AI 服務 API企業應用模型管理服務 APIDashscopePAI原生支持 LLM通義千問ChatGLM2-6BChatGLM-6B其他ADB-PG SQL API內置模型服務湖倉一體存儲對話記憶向量存儲非結構化數據存儲(文本,圖片,聲紋等)結構化存儲索引存儲(Btree、Gin、Ganos、HNSW)智能文檔分析文檔切分服務向量化轉換服務文檔管理語義推理語義檢索智能多路召回及精排等智能多路召回及精排等 標準SQL語法全文檢索(MPP)精排算法內置ML算法Anal
11、yticDBAnalyticDB forfor PostgreSQLPostgreSQL智能數據分析&開發Data CopilotAI Service:大模型+湖倉RAG應用搭建LLM加持下,應用面向更大的數據范圍,推動應用數據下推至數據湖倉AI增強分析平臺 倉內智能AnalyticDB 分布式架構設計融合融合查詢優化查詢優化:對于具有向量索引的查詢,會根據CBO生成融合查詢的最優執行計劃分區分區并行并行:支持多分區并行執行,降低多分區的執行聚合重排聚合重排:支持多分區聚合重排Distanceplugin:為了更好的支持算法廠商的加密算法,各種算法的距離計算作為插件集成到數據庫中全托管,自運維
12、全托管,自運維:支持白屏化管理能力,及低維護成本湖倉湖倉存儲:存儲:支持湖倉存儲,支持對于結構化+向量+全文的高性能查詢,對于企業知識支持低成本的靈活湖存儲協調節點協調節點(Master)InterconnectSegment節點節點向量檢索全文檢索事務管理SQL解析優化查詢調度元數據存儲HNSWPQ點積距離歐式距離tsvectortsqueryzhparserSegment節點節點(主)(主)GIN條件過濾Segment節點節點協調節點協調節點協調節點協調節點結構化|向量|非結構化 數倉存儲NSMDSMBtreeSegment節點節點(備)(備)Segment節點節點(備)(備)文本|圖片|
13、聲紋等 數據湖存儲湖數據訪問層AnalyticDB 完備企業級能力AnalyticDB(PostgreSQL版)完全保有在傳統數據庫的海量數據管理能力之上,對于海量的向量數據處理、檢索,半結構化,非結構化數據及多模數據分析進行了深度技術自研,自底向上進行了支持和規?;瘮U展(MPP適配,SIMD適配),從而用戶無需改動當前的架構,使用全SQL指令,即可立即對接大模型能力;向量數據庫功能對比向量數據庫功能對比AnalyticDB(PG)AnalyticDB(PG)PgPg插件插件MxxxMxxxPxxxPxxxQxxxQxxxFAxxxFAxxx全文索引全文索引Y YY Y(繼承繼承PGPG)N
14、NN NY YN N融合查詢融合查詢Y YN N(分區方式實現簡單分區方式實現簡單filterfilter)Y Y(比較簡單的標量比較簡單的標量filterfilter)Y Y(標量索引過濾)標量索引過濾)Y YN N原子性原子性/事務事務Y YY YN NN NN N(WALWAL保證可靠,保證可靠,但是沒有事務)但是沒有事務)N N寫入實時可見寫入實時可見Y YY YY YN NY Y(實時寫入時禁止實時寫入時禁止構建索引)構建索引)Y Y支持支持updateupdate和和deletedeleteY YN NY YY YY YN N索引壓縮存儲索引壓縮存儲Y YN NN NN NY YN
15、 N支持分區支持分區Y YY YY Y(寫數據需指定分區)寫數據需指定分區)Y Y(寫數據需指定分區)寫數據需指定分區)Y Y(分分shardshard)Y Y(分分shardshard支持)支持)高可用高可用Y YY YY YY YY YN N超過內存的數據集查超過內存的數據集查詢詢Y YY YY YN NY YN N支持流式導入支持流式導入Y YN N(只能離線構建索引)只能離線構建索引)Y Y(未滿未滿segmentsegment大小的數據無法大小的數據無法走索引)走索引)Y YY YN N支持多個向量索引支持多個向量索引Y YY YN N(一個集合只能有一個向量索引)一個集合只能有一個
16、向量索引)Y YY YN N其他限制其他限制無法處理超過2000維的向量無法處理超過內存的向量檢索,成本高國內目前無法使用,非美國本土性能存在降級無全托管版本純算法庫,非數據庫(能力收集于2023年6月)方案優勢方案優勢通義千問商業化平臺通義千問商業化平臺:通義千問模型一站式企業專屬模型服務平臺企業數據管理企業數據管理:可集中管理企業知識,并將知識可復用與知識庫回答及模型Finetune;大語言模型大語言模型:通義千問的商業模型平臺,提供持續演進的通義千問LLM模型;:專屬大模型在線專屬大模型在線APIAPI服務服務專屬大模型控制臺專屬大模型控制臺企業知識庫企業知識庫(AnalyticDB(A
17、nalyticDB forfor PostgreSQL)PostgreSQL)專屬大模型訓練專屬大模型訓練/評測評測/標注標注APIGatewayIndexPrompt重建LLM 大模型生成回復21FT/CT文檔向量訓練模型維護業務業務場景能力維護業務場景能力維護企業數據導入引用專屬大模型企業訓練數據通用大模型專屬大模型模型/知識庫管理智能問答應用專屬大模型DataAPI應用:基于應用來組織業務能力、提供服務結構化數據模型 API高精度召回阿里云阿里云百煉百煉阿里云百煉集成AnalyticDB 助力企業應用AnalyticDB for PostgreSQL 阿里云AnalyticDB for PostgreSQL助力企業升級為靈活靈活&全面全面的數據架構“企業大模型的云上數據大腦”AnalyticDB 向量溝通群(釘釘)歡迎溝通交流感謝觀看感謝觀看