《趙俊博-TableGPT-大模型的漫長落地之路初探.pdf》由會員分享,可在線閱讀,更多相關《趙俊博-TableGPT-大模型的漫長落地之路初探.pdf(69頁珍藏版)》請在三個皮匠報告上搜索。
1、TableGPT-大模型的漫長落地之路初探趙俊博 浙江大學演講嘉賓趙俊博(Jake)浙江大學百人計劃研究員浙江大學計算機學院百人計劃研究員、博士生導師浙江大學圖靈班項目主任浙江大學計算機創新技術研究院 人工智能前沿中心主任前連續創業者,前 Facebook,前 NVIDIA紐約大學博士,師從圖靈獎得主 Yann LeCun福布斯30Under30科技賽道封面人物,阿里云MVP,百度青年 AI 學者,首屆 WAIC 青年科學家TableGPT:將表格、自然語言和命令統一為一個 GPT預訓練大語言模型(LLM)的高速發展革新了人機交互、信息獲取的方式,但是 LLM 在面對精準定量問題中展現出來的“
2、剛性”和準確性仍然差強人意。在本次報告中,我們介紹TableGPT,一個融合自然語言交互、對結構化數據的向量化理解和交互鏈式指令集的完備系統,在落地場合中通過與用戶進行自然語言交互實現對表格文件或者數據庫表的增刪改查和其他復雜操作,兼容自動化大小模型交互,并支持可視化圖表生成和簡單的報告撰寫。團隊介紹科研支持M3實驗室 實驗室主要研究方向包括Data-centric AI、AI+X交叉、預訓練大模型與AIGC等課題。實驗團隊在NIPS、ICLR、ICML等頂會每年發表論文10余篇,多次獲得best paper,多次在Nature等著名期刊發表論文。工業落地支持浙江大學計算機創新技術研究院研究院
3、旨在打造數字經濟人才聚集地,做培育科技企業的“創新加速器”,將在資本、技術、人才、場地等各維度賦能企業,加速企業孵化,打造創新與創業相融合的新樣板窗口。硬件支持中昊芯英(杭州)有限公司中昊芯英構建了“自研訓練芯片+超算集群+AIGC 預訓練大模型”的產業價值鏈,打造完整的軟硬件一體化方案,為全球客戶提供具備生產變革能力的人工智能創新技術方案,加速人工智能的工程落地與產業化進程目 錄CONTENTS1.研究背景2.Table GPT功能展示3.關鍵技術4.TableGPT落地案例5.總結與展望研究背景PART 01給一個靈魂拷問針對LLM現狀的思考:柔性和剛性為什么我們要做一個剛性的LLM我們要
4、做一個什么樣的剛性LLM給一個靈魂拷問:你會為一個閑聊的玩具買單嗎?可能,我們至死是少年 所以還是會的但是針對LLM現狀的思考:柔性和剛性針對LLM現狀的思考:柔性和剛性ChatGPT系列等錯了就錯了,無所謂!目的是提高人機交互體驗柔性LLMTableGPT嚴格、嚴謹不能出錯剛性LLM什么是LLM的柔性和剛性?針對LLM現狀的思考:柔性和剛性對于一個柔性 LLM 的產品價值分析,產品邊際價值=新產品價值 舊產品價值 切換成本(產品方法論)真正最大化產品邊際價值的方式就是 把這個SQL專家 換成不懂SQL的人,同時確保剛性而這,就是TableGPT做的事SQL expertLLMSQLexper
5、tprompt請分析單品均價和賣出數量之間的關系新產品價值:SQL專家寫 prompt,通過LLM得到SQL,然后必須由專家修正并確保剛性舊產品價值=SQL專家直接寫SQL!剛性SQL code舉一個NL2SQL的例子來分析一個柔性LLM的產品價值為什么我們要做一個剛性的LLM?因為,文理需要兼修為什么我們要做一個剛性的LLM“理科生”剛性LLM能做的“文科生”柔性LLM能做的文科生通常更注重人文關懷和感性理解,而理科生則更注重邏輯推理和理性分析。聊天對話文本生成內容摘要協助編程分析、生成報告輔助決策數據可視化自動建模預測我們要做一個什么樣的剛性LLM在對話基礎上,具備普適性業務數據處理能力,
6、而表格是我們日常實用的數據格式,并且數據庫是各處都有的基礎設置 所以我們要做一個能用自然語言對話、能處理表格并具備剛性的LLM對話能力是剛性LLM的基礎我們要做一個什么樣的剛性 LLM我們要做一個什么樣的剛性LLMEveryone!企業管理者、數據分析師、學生零門檻讓你玩轉表格&數據庫類產品能做什么?一款可以讀懂表格的 LLM,可以根據表格內容聊天以完成工作的伙伴誰能用?我們要做一個什么樣的剛性LLM實現一個剛性LLM的初步思路INPUT指令精調輸入映射DSL領域限定語言功能分發OUTPUTLLM為什么是TableGPT?如GPT plugins-Show me diagrams 其能夠完成面
7、向數據到圖表的可視生成能夠實現的無法實現包含數理或邏輯關系的預測不能根據領域知識私有數據生成文字描述無法實現的業界也涌現了一些為table設計的LLM生態產品此類產品多是對LLM的table適配訓練未真正融入表格特征難以對表格深度的理解和分析TableGPT功能展示PART 02TabelGPT功能展示數據可視化&生成分析自動化建模預測表格自然操作1.自然語言查詢/修改/增加/刪除2.自然語義理解GroupBy等分組聚合條件3.指令鏈分步拆解用戶意圖并規劃指令實現鏈條1.智能理解表格含義自主選擇可視化形式(柱狀圖、折線圖、箱圖等)和內容(橫縱軸數據)2.根據可視化內容或表格內容總結數值特點,生
8、成可結合領域知識的分析報告1.結合表格特征自動化配置建模預測任務,助力數據分析TableGPT分類model回歸model后臺小模型任務結果大小模型協作,自動化適配不同的表格建模任務用戶上傳數據 TableGPT反饋操作結果:完整查詢結果文字說明與結果示例表格自然操作輸入指令表格可視分析表格自動建模24用戶輸入數據可視化指令TableGPT繪制可視化圖表表格自然操作表格可視分析表格自動建模25用戶輸入建模指令用戶配置預測目標列配置自動訓練小模型表格自然操作表格可視分析表格自動建模26預測數據上傳界面TableGPT返回模型鏈接用戶輸入待預測文件TableGPT返回預測結果表格自然操作表格可視分
9、析表格自動建模功能ChatExcelSheetCopilotData-CopilotTableGPT(我們的工作)自然語言交互P PP PP PP P數據可視化O OP PP PP P分析及報告O OO OP PP P數據預測O OO OP PP P指令鏈O OO OP PP P基礎模型未知APIAPI自主可控指令歧義性檢查O OO OO OP P私有化部署O OO OO OP P與國內外同類系統對比TableGPT一款具備結構化數據分析、作圖、處理、建模等功能的剛性預訓練大模型關鍵技術PART 03如何完成一個落地的LLMTableGPT落地之路如何完成一個落地的LLM我們先來看LLM的屬性
10、有哪些柔性語言能力、創造力剛性復雜工作上的準確性可解釋性工作過程可信與可視程度可交互性用戶對于工作過程的參與程度應該如何完成一個落地的LLM?-四個評估維度無法同時達到-基于場景有所取舍ChatBot、characterAI:文本理解與對話能力 -柔性 -可交互性Copilot:代碼生成與解讀能力 -剛性 -可解釋性TableGPT落地之路-剛性-可解釋性-可交互性LLM的落地之路以TableGPT為例:柔性到剛性-從文科生培養到理科生!ChatGPT系列等錯了就錯了,無所謂!目的是提高人機交互體驗柔性LLMTableGPT嚴格、嚴謹不能出錯剛性LLMTableGPT技術:頂層結構圖-本質為
11、LLM-based AGENT!TableGPT技術:Domain-Specific Language(DSL)過去十年房價是如何變化的?Step 1:按地區列出近十年的房價。Step 2:計算各地區不同年份的房價平均值。Step 1:input:Year,Region,Rera,.,output:Year,Region,Rera,.,commands:SelectCondition,commands_args:columns:Year,range:2013,2023,condition:range,Step 2:.組件類型組件參數輸入表格輸出表格 我們設計了一種高效的連結語言DSL,作為語言
12、模型與表格操作的剛性媒介作為CoT基礎參數自動校驗可移植性與高通用性Domain-Specific Language(DSL)可信性。DSL與自然語言的零成本平轉將處理過程可視化,提高過程透明度,保障結果的可解釋性可交互性。DSL高度結構化的組織形式,便于人類對處理過程進行點對點調控,保障結果的可控性可信性:DSL內容全程白盒可交互性:支持自主修改DSLTableGPT落地之路-剛性-低數據資源微調-領域知識微調-多模態對齊-可解釋性-可交互性如何實現TableGPT的剛性基于數據改善模型-基于領域與任務數據進行微調(Supervised Fine-Tuning)-基于領域數據樣例召回進行上下
13、文學習(In-Context Learning)如何實現TableGPT的剛性基于領域與任務數據進行微調(Supervised Fine-Tuning)中存在的挑戰:1.數據收集成本高、標注成本高-低資源指令微調 2.不同領域之間數據跨度大3.模型面向的數據模態多樣化Step 1:按地區列出近十年的房價。Step 1:input:Year,Region,Aera,.,output:Year,Region,Aera,.,commands:SelectCondition,commands_args:columns:Year,range:2013,2023,condition:range,slice
14、:no,輸出Domain-Specific Language輸入用戶查詢:過去十年房價是如何變化?背景信息:房價與供需關系、經濟形勢等因素有關Step 2:計算各地區不同年份的房價平均值。Step 2:input:Year,Region,Rera,.,output:Year,Region,Price,commands:GroupBy,commands_args:by:Region,Year,aggregate_args:Price:mean TableGPT剛性微調-低資源指令微調(LTD Instruction Tuning)-基于LLM的Instruction-tuning在逐漸成為定制化
15、模型訓練的主流方法,但該方法成本較高:-Instruction-tuning需求Token數量更多以Flan-T5的數據集為例,增加Instruction后token數量變為原來的1.6倍-對LLM的fine-tuning成本高chatGPT上個版本的模型fine-tuning價格是chatGPT的15倍,未來對GPT-4的微調接口將更貴以P3訓練數據(0.3B tokens,1.2G)為例,訓練的價格約6萬人民幣訓練一個模型的成本價達到6萬/次調參應對方案:可訓練資源限制(Low Training Data)下的Instruction-tuningMaybe Only 0.5%Data is
16、 Needed:A Preliminary Exploration of Low Training Data Instruction Tuning.Arxiv 2023(under reviewing)TableGPT剛性微調-低資源指令微調(LTD Instruction Tuning)Maybe Only 0.5%Data is Needed:A Preliminary Exploration of Low Training Data Instruction Tuning.Arxiv 2023(under reviewing)-基于指令對數據規模進行擴增-基于無標注數據進行高質量數據篩選-
17、基于主動學習或核心集策略進行數據采樣TableGPT剛性微調-低資源指令微調(LTD Instruction Tuning)-在NLI任務上使用原數據集0.5%的數據訓練出性能更好的模型-在P3整個數據集上使用原數據集0.3%的數據訓練出性能更好的模型Maybe Only 0.5%Data is Needed:A Preliminary Exploration of Low Training Data Instruction Tuning.Arxiv 2023(under reviewing)如何實現TableGPT的剛性基于領域與任務數據進行微調(Supervised Fine-Tuning
18、)中存在的挑戰:1.數據收集成本高 2.不同領域之間數據跨度大-快速領域微調快速領域微調 3.模型面向的數據模態多樣化金融領域高頻詞:均線、資金流入、委比、振幅、換手率、成交量、成交額、股價、分時指標、強勢股、漲停股、流通股本、總市值、流通市值、流通比例、股東戶數、戶均持股數、增減持、分紅、上市天數、銷售毛利率交通領域高頻詞:正點率、準點率、總駛里程、運營里程、客流量、班次、激增、滿載率、首末班、均勻化、迫降、失速、地勤、系統卡阻、曲柄、整流罩、流通、調度不同領域高頻詞有明顯差異TableGPT剛性微調-快速領域微調(FAvDP)Fast Adaptation via Prompted Dat
19、a:An Efficient Cross-Domain Fine-tuning Method for Large Language Models.EMNLP 2023(under reviewing)FAvDP技術1.識別出新語料的實體并連接到知識庫得到對2.將對轉化為提示文本,基于詞序列、位置序列和分段序列構建損失函數進行訓練原文本:基利安姆巴佩成為自 1966 年以來第一位在世界杯決賽中上演帽子戲法的球員。實體識別:基利安姆巴佩成為自1966年以來第一位在世界杯決賽中上演帽子戲法的球員?;材钒团?Q21621995)實例:人類國籍:法國職業:足球運動員 簡介:法國足球運動員帽子戲法(Q
20、123086)實例:足球術語描述:在一場比賽中完成三次進球Prompt處理結果基利安姆巴普(是法國足球運動員)成為自 1966 年以來第一位在世界杯決賽中上演帽子戲法(是在一場比賽中完成三次進球)的球員。TableGPT剛性微調-快速領域微調(FAvDP)訓練速度優勢Fast Adaptation via Prompted Data:An Efficient Cross-Domain Fine-tuning Method for Large Language Models.EMNLP 2023(under reviewing)運算成本優勢性能優勢在7B模型(LLaMA)上實現3%性能提升經過領
21、域注入模型會提前1520%左右的時間到達性能最高點注入知識量需求大大減少算力需求大大減少如何實現TableGPT的剛性基于領域與任務數據進行微調(Supervised Fine-Tuning)中存在的挑戰:1.數據收集成本高 2.不同領域之間數據跨度大3.模型面向的數據模態多樣化-text-table模態對齊TableGPTTable EncoderLLM111111GPT某地房價.csv用戶查詢:過去十年房價是如何變化?背景信息:房價與供需關系、經濟形勢等因素有關生成表格模型回答:根據此表格,近十年來各地區平均房價都逐漸增長,其中A市漲幅最大.TableGPT剛性實現:text-table模
22、態對齊emb1emb2maskembmemb4maskC3emb+Adaptive Transformer EncoderProjector HeadMasked Table Modeling HeadCalculate Self-supervised Lossgendermonthlyincomemale3000is the embedding for the name in column iCiembmonthlyincomepooltokenize&embeddingembis the embedding for each featuregender is malepoolphraseI
23、nput ProcessorFeature EmbeddingDownstream TaskHeader EmbeddingZeroZeroZeroZeroZero+TabPretNetCLScat.num x1,1.x1,m ID12.xn,1.xn,m monthlyincomepool3000Element-wisemultiplynormalizationC5embTelephone ClassificationCoffee Quality DataBreast Cancer DatasetBIRDS 525 SPECIESTrain one by oneBackboneLCT-BER
24、T:Learning Better Tabular Representations Through Cross-Table Pre-training.VLDB 2023(under reviewing)對表格編碼后的向量信息可以用來做什么?1、解決常見的表格預測任務Table EmbeddingsTableGPT剛性實現:text-table模態對齊對表格編碼后的向量信息可以用來做什么?2、提取表格的全局信息,幫助LLM更好的理解表格LLMTableQA TaskNL2SQL Task 各種定制化表格任務 Table EncoderHouse Price Table Other PromptT
25、ableGPT剛性修改:低代碼可交互AutoML平臺對TableGPT輸出指令參數進行快捷修改屬性用戶1用戶2姓名張三李四貸款金額6000缺失年收入100000200000風險評估良好不良準確率:83.7%數據自動建模RandomForestAutoML交互平臺支持流程搭建完畢,自動開始優化訓練TableGPT落地之路-剛性-可解釋性-DSL思維鏈-可交互性TableGPT可解釋性:Chain-of-DSL(DSL范式下的CoT)ChatDB:Augmenting LLMs with Databases as Their Symbolic Memory.Arxiv 2023 將復雜問題拆分為多
26、個中間步驟,每個中間步驟涉及一個或多個 DSL 提升復雜推理能力 高度可解釋性的詢問鏈TableGPT可解釋性:Chain-of-DSL(DSL范式下的CoT)numeric_cols:產品編號,成本,利潤,市場份額,廣告費用,研發投入,產品重量,產品尺寸,產品時長category_cols:產品類型,品牌,包裝類型,生產國家,銷售區域,目標市場,銷售渠道,主要競爭對手,消費者群體,產品特點給我中國產品的利潤分布。columns:生產國家,index:,filter_value:中國,condition:=,slice:no,type:column,relation:nonecolumns:利
27、潤,index:,filter_value:,condition:none,slice:no,type:column,relation:noneStep 1:SelectConditionStrStep 2:SelectInput 將復雜問題轉化為多個中間步驟,每個中間步驟涉及一個或多個可解釋的DSL,降低復雜度 有效提升TableGPT對復雜、模糊指令的推理能力Table FormatTableGPT落地之路-剛性-可解釋性-可交互性-自動化prompt-可編輯promptTableGPT可交互性:可交互的prompt編輯工程一個常見的場景:當前文本和目標高度近似.但仍有優化空間!-一個細粒
28、度可控的自動化文本優化器可以高效修改和完善文本!原始文本語言模型(決定原始文本中哪一部分需要保留)包含空缺的部分文本經過自動編輯的文本語言模型(補全文本)當原始文本和目標文本有大量重合時,基于編輯的范式可以大量保留原始文本,降低生成難度。更好的生成效果用戶在編輯過程中的每一步都可以給出細粒度的監督信號。比如指定原始文本的哪一部分不應修改。細粒度可控編輯動作的相互依賴較小,可以通過非自回歸語言模型進行并行生成,節省推理時間。并行生成潛力TableGPT可交互性:可交互的prompt編輯工程word2vec的基本結構是一個輸入隱藏輸出的三層神經網絡結構。word2vec的基本結構是一個mask輸入
29、mask隱藏mask輸出mask的三層神經網絡。word2vec的基本結構是一個包含輸入層,隱藏層和輸出層的三層神經網絡。比如,編輯范式可被用于輸入文本的糾錯和優化刪除冗余的文本,為添加文本功能創建占位符mask。對包含空缺的文本進行自動化補全,使其語義連貫。這一范式將用于TableGPT的后續優化,包括模板優化,中間結果優化,生成結果的細節處理等。TableGPT-specific評估體系我們設計4種功能指令形式,以半自動化的框架驅動指令構造基于以上指令,我們對TableGPT進行多維度的評估,選擇真正“好”的模型細粒度的評估訓練同時進行異步評測(loss無法體現模型優劣),用盡可能少的評估
30、數據選擇最有效的模型低成本的功能驗證Assessing Hidden Risks of LLMs:An Empirical Study on Robustness,Consistency,and CredibilityTableGPT-specific評估體系可信評估數據篩選設計RTI-Index,篩選可信數據,去除被“記憶”的評估樣本對抗魯棒性通過word、character、visual三種level的對抗攻擊評價魯棒性Word:delete、insert、replaceCharacter:delete、insert、replaceVisual:視覺相似字符替換模糊指令一致性構造同目標、表
31、達模式不同形式的輸入instruction,增強TableGPT含義處理能力構造方式:手動構造 GPT生成同義指令 嵌入instruction模版Assessing Hidden Risks of LLMs:An Empirical Study on Robustness,Consistency,and CredibilityTableGPT落地案例PART 04TableGPT落地案例目前TableGPT已經在金融、交通、工業等多個領域實現應用落地案例1-金融領域用戶業務痛點傳統的選股方法容易忽略市場情感和短期新聞影響,需要更智能的方式來輔助決策??蛻暨x擇基金時需要大量的信息篩選和比較,傳統
32、方法難以從海量信息中準確提取有效信息,需要更智能的推薦方式。傳統信貸風控往往基于靜態數據和模型,難以靈活應對不同客戶情況,需要更智能的方式來分析客戶風險。傳統的產品推薦往往基于靜態的客戶信息,無法捕捉客戶的動態變化和情感需求,需要更智能的方式來進行個性化推薦。智能選股信貸風控智能選基金產品精準推薦案例1-金融領域解決方案為保證在金融領域的選股、選基、信貸風控等精準定量場景下準確輸出,TableGPT內置了多種功能組件,并通過工程化校驗保證系統本身的“剛性”和可控性。輸入問題:給我XX股的近期的換手率、振幅以及流通股本等關鍵指標的動態演變情況根據數據,XX股近期換手率、振幅、流通股本從高到低數據
33、如下:.XX近期演變情況.csv輸入問題:XX投資基金c類的凈值管理多少只基金,有幾只賺錢?根據數據,XX投資基金c類的凈值管理X只基金,有X只賺錢XX投資基金c類數據.csv智能選股智能選基案例2-公共交通領域杭州市公共交通云科技有限公司40+2000W10W累計服務40+公交及地鐵城市日均服務公共交通100000輛+日均服務乘客2000萬+對外的需求痛點對內的需求痛點用戶訴求千奇百怪,若以傳統的機器人客服的實現方式,將用戶的提問劃分為各種意圖并一一對應實現,將耗費大量的人力物力,且永遠會發現有新的用戶提問未滿足數據分布在多張表中,每次想要提取數據分析,都需要需求方找到數據分析師,數據分析師
34、再找到后端詢問各字段藏在哪個表里,然后再寫SQL將數據按照要求一一提取,過程冗長,成本極高案例2-公共交通領域解決方案將TableGPT連接至公交云數據庫,自行理解提問者意圖并將數據從各表中提取出,在查班次詳情、查運營指標、半自動化調度等公交業務場景下對業務效率有顯著提升。輸入問題:哪10條線路的首末班準點率最高,且從高到低排序根據數據,1路-98%、2路-97%。線路準點率.csv輸入問題:找下X線路的近30天的所有營運指標根據數據,已提供X線路的運營指標報表X線路運營指標報表.csv查班次詳情查運營指標Going beyond Language 3D AIGC測試標準物理屬性工業多模態數據
35、大語言模型缺陷拓撲優化目前的圖像類/3D資產類的生成式的工作,在生成的內容的可控性上式欠缺的解決路徑線下可用3D資產CAD自動化腳本Going beyond Language 3D AIGC生成一個剎車盤,剎車盤的具體參數和描述如下:外圈參數和描述:直徑40厘米,厚度3厘米,外圈上有8個直徑為1厘米的圓形排氣孔均勻排列;內圈參數和描述:直徑20厘米,厚度6厘米,內圈有4個直徑為1厘米的圓形排氣孔均勻排列;中通參數和描述:圓柱形鏤空,直徑5厘米,需要符合歐洲檢測標準總結與展望PART 05從TableGPT看LLM未來:底座模型的重要性信息繭房受到算法推薦和個性化篩選的影響用戶只接觸到符合自身興趣和觀點的信息合規性思考相比于理解 LLM 在做什么我們能夠控制的是自主可控數據源從TableGPT看LLM未來一個通用大模型到領域大模型的技術間隔,即LLM 的落地應用層面 這個事兒不容易,不是單純拿一些領域數據精調就結束了 領域數據的清洗 和 面相特定任務的特定指令數據精調是個藝術 尊重領域數據的知識注入-技術問題 尊重產品、工程和商業價值 重點要關注剛性的提升。Going beyond language!-尊重業務本身的工作流 THANKS