《大模型時代面的DataOps和DataFabric(1).pdf》由會員分享,可在線閱讀,更多相關《大模型時代面的DataOps和DataFabric(1).pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型時代下的DataOps和DataFabric白鯨開源白鯨開源 CEOCEOApache Software Foundation MemberApache Software Foundation Member郭煒郭煒郭煒白鯨開源 CEOApache 基金會成員,Apache 孵化器導師Apache DolphinScheduler PMC,Apache SeaTunnel 導師,ClickHouse 華人社區創始人 郭煒先生畢業于北京大學,現任中國通信學會開源技術委員會委員,中國計算協會開源發展委員會委員,中國軟件行業協會智能應用服務分會副主任委員,全球中小企業創業聯合會副會長,TGO鯤鵬
2、會北京分會會長,ApacheCon Asia DataOps論壇主席,波蘭DataOps峰會、北美Big Data Day演講嘉賓,虎嘯十年 杰出數字技術人物,中國開源社區最佳33人,中國2021年開源杰出人物郭煒先生現任白鯨開源CEO,曾任易觀CTO,聯想研究院大數據總監,萬達電商數據部總經理,先后在中金、IBM、Teradata任大數據方重要職位,對大數據前沿研究做出卓越貢獻。同時郭先生參與多個技術社區工作,Presto,Alluxio,Hbase等,是國內開源社區領軍人物。4現代程序員編程模式現代程序員編程模式5大模型已經在產研各個領域產生作用大模型已經在產研各個領域產生作用wirk客服
3、UI MarketingEmailmagic AI研發產品文檔撰寫產品宣講MidJourneyOpenArt需求設計WhaleGPT大模型輔助已經在開發整體流程中產生了更大的變化作用,熟練大模型的開發者可以“以一當十”。選自郭大俠AIGC產研工具全景圖6何時用人何時用大模型編程?何時用人何時用大模型編程?優點缺點場景人邏輯復雜縝密,可以完成比較復雜的開發任務寫代碼效率低成本高復雜業務邏輯,核心引擎Co-Pilot整合在開發工具中,快速復用/書寫類似代碼準確率不高,生成代碼段比較短,邏輯簡單輔助編程,復用代碼ChatGPT可以編寫較復雜的業務代碼,特別是有類似案例的情況下需要code-revie
4、w,錯誤隱藏的更深,缺乏創造性有類似場景代碼,自動生成新場景代碼私有化AIGC數據更安全,更懂你的業務準確率和模型正相關,目前在70%左右Txt2SQL,運維腳本7大模型編程示例大模型編程示例Apache SeaTunnelApache SeaTunnel讓大模型幫助你對接各種復雜SaaS而不需要重新開發:SeaTunnel 2.3.1 重磅發布!AI compatible 特性引發關注 SeaTunnel發布AI Compatible版本2.3.1,為ChatGPT重構適合AI開發的程序接口和程序架構,可以讓GPT自動生成對接SaaS的接口,生成代碼可以直接運行,與人類開發代碼99%相似,開
5、發接口速度從80小時變為1小時 SeaTunnel利用開源代碼+SaaS開放接口+GPT強大優勢碾壓Airbyte/FiveTran數百SaaS接口優勢 挑戰:Code-Review給出參考和要求可自動生成接口且生成代碼可直接運行8大模型讓更專業的人做專業的事情,體力活交由大模型來做大模型讓更專業的人做專業的事情,體力活交由大模型來做Apache SeaTunnel Zeta核心,全職人編寫,社區輔助啟動Connector全職人員編寫外部數據Connector社區貢獻SaaS ConnectorGPT Coder10DataOps x DataOps x 大模型大模型 讓大模型可以進入千家萬戶
6、讓大模型可以進入千家萬戶微調開源模型重新訓練模型從0構建大模型Few-shot PromptingZero-shot Prompting動態Prompting多模態 Prompting微調現有模型高門檻低門檻個人、小型企業/團隊用SaaS中型企業/團隊使用模型超大型企業/團隊自建模型Prompting 工程適配/微調重新構建LangchainFew-shot PromptingZero-shot Prompting重新訓練模型從0構建大模型微調開源模型多模態 Prompting微調現有模型動態Prompting企業使用大模型存在門檻:專業人才?訓練過程復雜GPU資源?數據供給?11私有化大模型
7、距離我們有多遠?私有化大模型距離我們有多遠?一杯星巴克的距離一杯星巴克的距離利用開源大模型DataOps生態,降低大模型FineTune門檻12Chat with your DataChat with InternetWhaleGPT企業數據訓練的私有化大模型幫助開源大模型,利用大模型模板,快速提高模型迭代效率連接企業內部數據支持150+種數據源互聯網數據原創大模型訓練GPTSeaTunnelChatLLM利用開源利用開源DataOpsDataOps生態,快速訓練自己的私有化模型生態,快速訓練自己的私有化模型13舉例:專業私有化大模型如何訓練?舉例:專業私有化大模型如何訓練?以WhaleLLM
8、模型為例:基礎數據知識根據大量不同領域數據庫Schema構建數據基礎元數據大模型利用通用領域元數據數據訓練模型特定業務+技術數據數據特定數據庫Schema構建數據特定企業業務領域知識企業歷史SQL數據構建增強數據企業大模型模型利用專屬數據訓練模型企業專有模型領域專有模型開源模型V1004090*4A100*415數據驅動和快速業務迭代給數據管理提出了更多的挑戰,數據驅動和快速業務迭代給數據管理提出了更多的挑戰,DataFabricDataFabric提上日程提上日程敏捷開發讓應用/交易數據快速擴張,數據管理部門無法快速處理和及時響應,傳統的數據治理流程產生巨大挑戰新興數據源,多云、混合云、Sa
9、aS模塊變化“暗數據”越來越多,數據孤島越來越多,68%數據沒有被分析,82%企業出現數據孤島。業務部門數據驅動理念深入,多個數據集市分別單獨管理,數據指標爆炸增長,數據治理工作量越做越多,范圍卻越管越少龐大的數據體系讓數據越來越難找,數據范圍已經從DataOps擴大到DevOps流程。,分析師80%時間都在找數據和驗證數據新興數據源與快速敏捷開發過程給數據治理/管理部門提出更多的挑戰:16DataFabricDataFabric是什么?是什么?Data Fabric是以一種智能和安全的并且是自服務的方式,動態地協調分布式的數據源,跨數據平臺地提供集成和可信賴的數據,支持廣泛的不同應用的分析和
10、使用場景。其專注于對數據集成、轉換、準備、策展、安全、治理和編排的自動化,從而實現了快速的數據分析和洞察,幫助業務獲得成功ForresterData Fabric是一種新興的數據管理設計理念,可實現跨異構數據源的增強數據集成和共享,通過對現有的、可發現和可推斷的元數據資產進行持續分析,來支持數據系統跨平臺的設計、部署和使用,從而實現靈活的數據交付。通過散落各處的數據孤島都能被統一發現和使用,并基于主動元數據進行建設和持續分析,認為數據編織的真正價值在于它能夠通過內置的分析技術動態改進數據的使用,同時通過將自動化能力添加到整體數據管理中,使數據管理工作量減少 70%并加快價值實現速度。Gartn
11、erData Fabric是一套新興的數據管理自服務方式,通過智能化手段對企業的整體數據資源、元數據、業務規則等實現自發現、自分類、自關聯,并提供手段可以快速異構同步/查詢的方式快速完成數據獲取和分析,從而實現企業數據資產全覆蓋和高效的數據洞察。郭大俠17大模型的出現讓大模型的出現讓DataFabricDataFabric成為了可能成為了可能根據Gartner給出的DataFabric成熟度圖形,大模型正好解決了傳統知識圖譜的技術短板。傳統元數據,只有技術元數據 業務元數據獲取方式大部分采取人工方式(不自動化)知識圖譜,傳統用戶畫像過時 大模型可以閱讀文檔,訓練給出業務理解,還可以增強SQL
12、數據目錄型態,從樹狀,變為網狀,大模型對話形式細化搜索 數據虛擬化,何時自動遷移,何時查詢?如何不影響OLTP環境?需要多種快速了解全部元數據 DataOps是基礎(代碼,需求,測試,ETL,數據質量,鏈路血緣)+數據源定義、數據庫技術元數據18大模型在自然語言和知識庫體系出現了顛覆式創新大模型在自然語言和知識庫體系出現了顛覆式創新學生分數在哪張表里?“學生”“分數”“在”“哪張表”主語 介詞賓語語義:“學生分數”-表 關系知識庫查詢(圖數據庫)結果排序:學生分數 Enrollments 表學生分數 字段名 Student Score學生分數在哪張表里?0.001767348474591444
13、,-0.016549955833298362,0.009669921232251705,-0.024465152668289573,-0.04928377577655549,.向量化向量數據庫大模型學生分數信息存儲在Enrollments里19大模型技術重構了大模型技術重構了DataFabricDataFabric技術框架技術框架Data SourcesConnected Data Catalogwithin a Knowledge GraphKnowledge EngineEnrichment&Connection of MetadataData DeliveryData Goverance
14、&StandardData SourcesData Catalog VectorIn Vector DBLLMEnrichment&Connection of MetadataData MeshData Goverance&StandardIBM DataFabric 技術框架大模型體系下的DataFabric技術框架20大模型驅動企業大模型驅動企業DataFabricDataFabric,高效連接事務和分析數據實現自主分析,高效連接事務和分析數據實現自主分析大模型X Data FabricDevOps開發測試部署數據新需求應用開發OLTPDataOpsETL開發測試運維可觀測新需求數據開發OLAP業務知識數據信息數據治理數據湖跨云存儲數據查詢21現階段大模型能做到什么程度?現階段大模型能做到什么程度?超級個體的涌現 數據研發迭代速度從周到天到小時分析理念和業務為王26每一個領域都值得用大模型再做一遍,大模型會重新定義DataOps&DataFabric