當前位置：首頁 > 報告詳情

大模型在知乎艦橋平臺的應用和實踐.pdf

上傳人：張** 編號：155420 2024-02-15 PDF PDF 25頁 9.89MB

該報告所屬合集： DataFunSummit2023：大模型與AIGC峰會嘉賓演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/25

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《大模型在知乎艦橋平臺的應用和實踐.pdf》由會員分享，可在線閱讀，更多相關《大模型在知乎艦橋平臺的應用和實踐.pdf（25頁珍藏版）》請在三個皮匠報告上搜索。

1、DataFunSummit#2023大模型在知乎艦橋平臺的應用和實踐演講人-侯容-知乎-艦橋平臺 Leader自我介紹姓名：侯容Title：艦橋平臺 Leader個人簡介：18 年入職知乎，曾擔任社區、社交等業務高級研發和業務架構師，21 年加入平臺團隊擔任用戶理解&數據賦能組研發Leader。帶領團隊從 0 到 1 從底層到業務層搭建實時數據基建和業務，同時整合資源完成用戶理解工程及 DMP 的建設。目前擔任艦橋平臺Leader，從 0 到 1 搭建知乎艦橋平臺（一站式內容&用戶管理平臺。面向找人、找內容、盯人、盯內容、找機會、查問題六大核心的篩選、打包、分析、監控的運營平臺）。今年隨著大模

2、型的發展，將3個適用于大模型應用的典型場景在艦橋中完成了落地。業務現狀和背景01知識體系分類整理業務背景困難與挑戰事件聚合-解決方案事件聚合業務效果知識整理解決方案知識整理業務效果02自然語言轉篩選條件業務背景及困難與挑戰解決方案微調問題與解決版本 1&版本 2 問題與解決版本 3 業務效果03自然語言數據分析業務背景及困難與挑戰解決方法動態 prompt 業務效果04總結與展望總結痛點展望目錄CONTENTDataFunSummit#202301 知識體系分類整理業務背景困難與挑戰聚不上的 case：布克全面發揮，帶隊反彈勝利。太陽將與掘金對戰。NB

3、A季后賽，太陽淘汰快船晉級。過度聚合的 case：科大訊飛申請星火大模型商標?！靶茇堁狙尽币驯欢喾缴暾堊陨虡?。事件聚合-解決方案整體分 4 個階段1、新聞提前關鍵信息并處理成向量。2、多輪高準聚類直到無法聚類。3、一輪高召聚類，通過大模型判斷聚類節點中事件是否相同。4、生成事件-新聞的最終結果。事件聚合業務效果業務效果輸入：新聞標題和正文。輸出：事件名，該事件下的新聞列表。問題如何被解決？max token 問題：由于通過層次聚類先過濾了一把，進入 LLM 的 prompt 長度都比較小。聚不上和過度聚：在階段 3，score 較低左邊的 case 都在一個節點內，LLM 可以根據語義判斷

4、是否是一個事件。優點：事件名可以自動生成，無需人工介入。準確率的提升，較早期方法左邊的 case 是無法解決的，通過引入大模型進行語義判斷解決。缺點：目前事件是否需要合并斷比較依賴基礎模型。長期計劃通過微調和升級模型來進一步提升對事件是否合并的判斷。知識整理-解決方案簡介構建了類似數據處理 map-reduce 框架的算子，并實現了左圖的流程。流程1、內容拆分，確保 prompt 不超過 max token。2、map：每組內容生成分類名。3、reduce：分類名兩兩合并，直到無法合并。4、map（join）：將分類和單條內容生成 prompt，完成內容分類。5、結果寫入文件，并根據 grou

5、p by 后的數量決定是否需要遞歸從 1 開始執行。n、將最終所有文件 merge 成一個結果文件。問題如何解決？繞開 max token：先將內容按照 max token 拆分，形成分類，再進行分類合并繞開。如何快速處理大量內容：將任務抽象成 map-reduce 節點，同一 stage 節點可并發，保障并行度。如何對大模型限速：map 和 reduce 節點中任務是一個通用的 task，在該 task 的調度隊列針對集群統一限速。知識整理-業務效果業務效果輸入：內容標題或摘要。輸出：按為大小的多層級分類。包括一級、二級等等分類名、層級數以及該分類下的內容。使用場景精細化運營場景的知識體系構

6、建（查漏補缺）?；顒訄鼍暗亩壏诸惪焖俅罱ê屠鋯?。也有部分同學用于了個人資料整理。優點：低成本，0 人工介入，全流程自動。缺點：比較依賴基礎模型自身對內容的理解。DataFunSummit#202302 自然語言轉篩選條件業務背景及困難與挑戰解決方案微調選型純 PE：簡單，但隨著深入和準確率要求，無法進一步提升。微調：投入成本高，但隨著投入可提升準確率，同時可以和基礎模型升級結合。解決方案造數據微調。數據構造思路階段 1 基于原子條件構造篩選條件。累計瀏覽量大于 5000 的內容。階段 2 將原子條件完成交并差構造篩選條件。2023年發布的二級貝葉斯分類為手機游戲的內容。階段 3 將模糊語

7、句構造篩選條件。近期比較好的內容，排除掉低質創作者。階段 4 邏輯錯誤篩選條件2023年表現比較好的想法，發布時間小于2022年，返回邏輯錯誤。問題與解決版本 1&版本 2（階段一）版本 1問題：輸出與輸入毫不相干。原因：基礎模型缺乏邏輯能力。解決方法：對基礎模型增加大量邏輯樣本（也就是代碼、數學題）并訓練。版本 2問題 1：JSON 存在截斷原因：max token 原因，過長截斷。解決方法：調長 max token。問題 2：存在進入重復后，一致重復原因：進入某一個概率后，相同字或者詞的概率始終最高。解決方法：使用 random sample 解決。問題與解決版本 3（階段一）本次結果

8、（完全準確 72%幻覺 17%格式錯誤 11%優化方向問題1：JSON 格式錯誤解法：構造一大量 JSON 的樣本。問題2：存在額外條件解法：隨機條件組合構造樣本。問題3：大于小于號錯誤解法：將篩選條件隨機生成多種大于小于的樣本。問題4：且或非理解錯誤解法：隨機組合條件生成一批且或非的樣本。問題5：時間區間理解成時刻解法：將多個時間類篩選條件構造一批樣本。問題6：條件部分缺失解法：隨機條件組合構造樣本。問題與解決版本 4（階段二）本次結果完全準確 95.59%幻覺 2.64%格式錯誤 1.77%結果：基本滿足簡單使用，上線。優化方向模糊問題構造構造一批例如：高質量創作者創作的優質大模型回答內

9、容，進行微調。根據用戶實際使用中的 case 定向解決根據用戶實際反饋的問題，生成對應的樣本繼續進行微調解決。業務效果結果描述輸入：自然語言。輸出：對應的篩選條件組合。業務效果降低了使用成本，用戶使用量提升，提高了整體的工作效率。新手友好，很多新同學通過自然語言轉篩選開始學會使用這一功能，降低推廣成本。改變了傳統的新標簽、新特征推廣方式，將新標簽上線后對各業務方宣講，轉變為自動翻譯成新標簽的形式，提升了溝通效率，降低了協同成本。待優化點模糊語言：近一個優秀作者寫的高質量內容。DataFunSummit#202303 自然語言數據分析業務背景解決方法動態 prompt選型純 prompt：無法

10、解決，一方面是 ads 表太寬了，max token 放不下。另一方面是 few shot固定的話會忽略查詢語句，效果不好。微調：投入成本高，需要較多的樣本才能達到比較滿意的結果。動態 prompt：prompt 中的表字段和 fewshot 根據和查詢語句最相近的查詢生成。解決方案動態 prompt。流程初始化：將樣本處理成問題、查詢字段、SQL，將問題轉成 embedding 存入 FAISS用戶查詢：將問題轉成 embedding 并通過 MMR 找到類似的問題 Top10。根據 max token 生成合適的 prompt：綠色：去重后的列名。淺藍：查詢例子。深藍：本次用戶問題。業務效

11、果問題及解決方法問題 1：早期使用余弦相似，類似的樣例太多，效果不好。解法：改用 MMR 通過多樣性避免 prompt 輸入不夠。問題 2：如何盡可能將查詢與數據源關聯好。解法：這塊的確困難，因為不同數據源直接總有些名稱相似的字段。所以采用產品方案，左上角將業務名稱和可用數據源做了關聯。問題 3：用戶輸入的自然語言很泛，如何在這種情況下盡可能準確的滿足用戶需求？解法：由于使用的是動態 prompt，這部分問題就轉化為如何豐富樣例，雖然 SQL 是無法枚舉的，但用戶的口語習慣隨著逐漸增多的樣例就能變好。當前的問題準確率不足：當前由于分析場景還是很靈活多變的，簡單的 case 表現還行，但一旦復雜效果就不好。后續計劃對模型進行 fine tune，進一步加強在各業務場景的表現效果。DataFunSummit#202304 總結與展望總結與展望感謝觀看

相關圖表

本文介紹了知乎艦橋平臺在2023年的數據分析和處理實踐。侯容，知乎艦橋平臺領導者，分享了三個關鍵應用：1）知識體系分類整理，通過事件聚合和知識整理解決方案，提升內容管理和用戶理解；2）自然語言轉篩選條件，將用戶自然語言轉化為有效的篩選條件，提高了準確率和用戶體驗；3）自然語言數據分析，采用動態prompt技術，解決廣告數據寬度和查詢語句的匹配問題，提升數據分析效果。這些實踐均取得了顯著的業務效果，如提高工作效率、降低使用成本、提高準確率等。未來，知乎艦橋平臺將繼續優化模型，解決模糊語言處理等挑戰，以滿足更復雜的業務場景需求。

"大模型如何提升內容管理效率？" "如何通過自然語言實現精準篩選？" "自然語言分析在內容運營中的應用前景如何？"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站