《大模型在知乎艦橋平臺的應用和實踐.pdf》由會員分享,可在線閱讀,更多相關《大模型在知乎艦橋平臺的應用和實踐.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummit#2023大模型在知乎艦橋平臺的應用和實踐演講人-侯容-知乎-艦橋平臺 Leader自我介紹姓名:侯容Title:艦橋平臺 Leader個人簡介:18 年入職知乎,曾擔任社區、社交等業務高級研發和業務架構師,21 年加入平臺團隊擔任用戶理解&數據賦能組研發Leader。帶領團隊從 0 到 1 從底層到業務層搭建實時數據基建和業務,同時整合資源完成用戶理解工程及 DMP 的建設。目前擔任艦橋平臺Leader,從 0 到 1 搭建知乎艦橋平臺(一站式內容&用戶管理平臺。面向找人、找內容、盯人、盯內容、找機會、查問題六大核心的篩選、打包、分析、監控的運營平臺)。今年隨著大模
2、型的發展,將3個適用于大模型應用的典型場景在艦橋中完成了落地。業務現狀和背景01知識體系分類整理 業務背景 困難與挑戰 事件聚合-解決方案 事件聚合 業務效果 知識整理 解決方案 知識整理 業務效果02自然語言轉篩選條件 業務背景及困難與挑戰 解決方案 微調 問題與解決 版本 1&版本 2 問題與解決 版本 3 業務效果03自然語言數據分析 業務背景及困難與挑戰 解決方法 動態 prompt 業務效果04總結與展望 總結 痛點 展望目錄CONTENTDataFunSummit#202301 知識體系分類整理業務背景困難與挑戰聚不上的 case:布克全面發揮,帶隊反彈勝利。太陽將與掘金對戰。NB
3、A季后賽,太陽淘汰快船晉級。過度聚合的 case:科大訊飛申請星火大模型商標?!靶茇堁狙尽币驯欢喾缴暾堊陨虡?。事件聚合-解決方案整體分 4 個階段1、新聞提前關鍵信息并處理成向量。2、多輪高準聚類直到無法聚類。3、一輪高召聚類,通過大模型判斷聚類節點中事件是否相同。4、生成事件-新聞的最終結果。事件聚合 業務效果業務效果輸入:新聞標題和正文。輸出:事件名,該事件下的新聞列表。問題如何被解決?max token 問題:由于通過層次聚類先過濾了一把,進入 LLM 的 prompt 長度都比較小。聚不上和過度聚:在階段 3,score 較低左邊的 case 都在一個節點內,LLM 可以根據語義判斷
4、是否是一個事件。優點:事件名可以自動生成,無需人工介入。準確率的提升,較早期方法左邊的 case 是無法解決的,通過引入大模型進行語義判斷解決。缺點:目前事件是否需要合并斷比較依賴基礎模型。長期計劃通過微調和升級模型來進一步提升對事件是否合并的判斷。知識整理-解決方案簡介構建了類似數據處理 map-reduce 框架的算子,并實現了左圖的流程。流程1、內容拆分,確保 prompt 不超過 max token。2、map:每組內容生成分類名。3、reduce:分類名兩兩合并,直到無法合并。4、map(join):將分類和單條內容生成 prompt,完成內容分類。5、結果寫入文件,并根據 grou
5、p by 后的數量決定是否需要遞歸從 1 開始執行。n、將最終所有文件 merge 成一個結果文件。問題如何解決?繞開 max token:先將內容按照 max token 拆分,形成分類,再進行分類合并繞開。如何快速處理大量內容:將任務抽象成 map-reduce 節點,同一 stage 節點可并發,保障并行度。如何對大模型限速:map 和 reduce 節點中任務是一個通用的 task,在該 task 的調度隊列針對集群統一限速。知識整理-業務效果業務效果輸入:內容標題或摘要。輸出:按為大小的多層級分類。包括一級、二級等等分類名、層級數以及該分類下的內容。使用場景精細化運營場景的知識體系構
6、建(查漏補缺)?;顒訄鼍暗亩壏诸惪焖俅罱ê屠鋯?。也有部分同學用于了個人資料整理。優點:低成本,0 人工介入,全流程自動。缺點:比較依賴基礎模型自身對內容的理解。DataFunSummit#202302 自然語言轉篩選條件業務背景及困難與挑戰解決方案 微調選型純 PE:簡單,但隨著深入和準確率要求,無法進一步提升。微調:投入成本高,但隨著投入可提升準確率,同時可以和基礎模型升級結合。解決方案造數據微調。數據構造思路階段 1 基于原子條件構造篩選條件。累計瀏覽量大于 5000 的內容。階段 2 將原子條件完成交并差構造篩選條件。2023年發布的二級貝葉斯分類為手機游戲的內容。階段 3 將模糊語
7、句構造篩選條件。近期比較好的內容,排除掉低質創作者。階段 4 邏輯錯誤篩選條件2023年表現比較好的想法,發布時間小于2022年,返回邏輯錯誤。問題與解決 版本 1&版本 2(階段一)版本 1問題:輸出與輸入毫不相干。原因:基礎模型缺乏邏輯能力。解決方法:對基礎模型增加大量邏輯樣本(也就是代碼、數學題)并訓練。版本 2問題 1:JSON 存在截斷原因:max token 原因,過長截斷。解決方法:調長 max token。問題 2:存在進入重復后,一致重復原因:進入某一個概率后,相同字或者詞的概率始終最高。解決方法:使用 random sample 解決。問題與解決 版本 3(階段一)本次結果
8、(完全準確 72%幻覺 17%格式錯誤 11%優化方向問題1:JSON 格式錯誤解法:構造一大量 JSON 的樣本。問題2:存在額外條件解法:隨機條件組合構造樣本。問題3:大于小于號錯誤解法:將篩選條件隨機生成多種大于小于的樣本。問題4:且或非理解錯誤解法:隨機組合條件生成一批且或非的樣本。問題5:時間區間理解成時刻解法:將多個時間類篩選條件構造一批樣本。問題6:條件部分缺失解法:隨機條件組合構造樣本。問題與解決 版本 4(階段二)本次結果完全準確 95.59%幻覺 2.64%格式錯誤 1.77%結果:基本滿足簡單使用,上線。優化方向模糊問題構造構造一批例如:高質量創作者創作的優質大模型回答內
9、容,進行微調。根據用戶實際使用中的 case 定向解決根據用戶實際反饋的問題,生成對應的樣本繼續進行微調解決。業務效果結果描述輸入:自然語言。輸出:對應的篩選條件組合。業務效果降低了使用成本,用戶使用量提升,提高了整體的工作效率。新手友好,很多新同學通過自然語言轉篩選開始學會使用這一功能,降低推廣成本。改變了傳統的新標簽、新特征推廣方式,將新標簽上線后對各業務方宣講,轉變為自動翻譯成新標簽的形式,提升了溝通效率,降低了協同成本。待優化點模糊語言:近一個優秀作者寫的高質量內容。DataFunSummit#202303 自然語言數據分析業務背景解決方法 動態 prompt選型純 prompt:無法
10、解決,一方面是 ads 表太寬了,max token 放不下。另一方面是 few shot固定的話會忽略查詢語句,效果不好。微調:投入成本高,需要較多的樣本才能達到比較滿意的結果。動態 prompt:prompt 中的表字段和 fewshot 根據和查詢語句最相近的查詢生成。解決方案動態 prompt。流程初始化:將樣本處理成問題、查詢字段、SQL,將問題轉成 embedding 存入 FAISS用戶查詢:將問題轉成 embedding 并通過 MMR 找到類似的問題 Top10。根據 max token 生成合適的 prompt:綠色:去重后的列名。淺藍:查詢例子。深藍:本次用戶問題。業務效
11、果問題及解決方法問題 1:早期使用余弦相似,類似的樣例太多,效果不好。解法:改用 MMR 通過多樣性避免 prompt 輸入不夠。問題 2:如何盡可能將查詢與數據源關聯好。解法:這塊的確困難,因為不同數據源直接總有些名稱相似的字段。所以采用產品方案,左上角將業務名稱和可用數據源做了關聯。問題 3:用戶輸入的自然語言很泛,如何在這種情況下盡可能準確的滿足用戶需求?解法:由于使用的是動態 prompt,這部分問題就轉化為如何豐富樣例,雖然 SQL 是無法枚舉的,但用戶的口語習慣隨著逐漸增多的樣例就能變好。當前的問題準確率不足:當前由于分析場景還是很靈活多變的,簡單的 case 表現還行,但一旦復雜效果就不好。后續計劃對模型進行 fine tune,進一步加強在各業務場景的表現效果。DataFunSummit#202304 總結與展望總結與展望感謝觀看