《Datafun2024_張亞峰v.pdf》由會員分享,可在線閱讀,更多相關《Datafun2024_張亞峰v.pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunConDataFunCon#20242024AIAI大模型技術在知乎搜索大模型技術在知乎搜索等場景的應用等場景的應用張亞峰知乎 算法負責人logoContentsContents目錄目錄知乎大模型能力建設 AI搜索基于大模型的內容/用戶理解AI Embedding 應用于搜索召回排序0101知乎大模型能力建設知乎大模型能力建設 知乎大模型基建-知海圖 AI大模型模型基礎能力評估:知海圖 AI 大模型與 GPT3.5 對比評估,評估結果顯示知海圖 AI 大模型整體達到 GPT3.5 模型 93.49%的能力,在知識問答方面知海圖 AI 大模型表現優于 GPT3.5,達到其 102.
2、93%的水平,在推理能力上,知海圖 AI 大模型也達到 GPT3.5 90.80%的水平。通過網信辦大模型牌照備案:知海圖 AI 大模型在 2023 年 11 月初正式通過國家互聯網信息辦公室深度合成服務算法備案,具備正式上線和對外提供服務資格。知乎大模型基建-多模態大模型多模態大模型:知乎多模態大模型:知乎&面壁共同開發的面壁共同開發的 MiniCPMMiniCPM-V V 多模態大模型,以多模態大模型,以 2.8B 2.8B 參數量,能夠逼近甚至超越其他主流參數量,能夠逼近甚至超越其他主流 7B 7B 大模型大模型Clip Clip 模型模型(對比(對比 ChineseClipChines
3、eClip):):base 模型(參數量 82M+60M vs CnClip86M+102M):分類準確率+15.1%(48.3%55.6%),檢索召回+10.7%(78.2%86.6%)huge 模型(參數量 602M+338M vs CnClip632M+326M):分類準確率+10.7%(59.6%66.0%),檢索召回+10.0%(80.8%88.9%)知乎大模型基建-極致以小博大極致以小博大+高性能低成本高性能低成本MiniCPM-V 2.0 是第一個通過多模態是第一個通過多模態 RLHF 對齊的端側多模態大模型對齊的端側多模態大模型該模型在多個主流評測基準上性能超該模型在多個主流評
4、測基準上性能超過了更大參數規模(例如過了更大參數規模(例如 17-34B)的主流模型,場景文字理解能力接近的主流模型,場景文字理解能力接近 Gemini Pro,在在 Object HalBench達到和達到和 GPT-4V 相仿的性能。相仿的性能??梢栽谝苿邮謾C上部署可以在移動手機上部署知乎大模型基建-極致以小博大極致以小博大+高性能低成本高性能低成本MiniCPM-V 2.0 是第一個通過多模態是第一個通過多模態 RLHF 對齊的端側多模態大模型對齊的端側多模態大模型該模型在多個主流評測基準上性能超該模型在多個主流評測基準上性能超過了更大參數規模(例如過了更大參數規模(例如 17-34B)
5、的主流模型,場景文字理解能力接近的主流模型,場景文字理解能力接近 Gemini Pro,在在 Object HalBench達到和達到和 GPT-4V 相仿的性能。相仿的性能??梢栽谝苿邮謾C上部署可以在移動手機上部署 MiniCPM:Unveiling the Potential of Small Language Models with Scalable Training Strategies.2024.知乎大模型基建-極致以小博大極致以小博大+高性能低成本高性能低成本MiniCPM-2B-128k:一個小于一個小于 3B 的的 128k 模型模型性能與先進的性能與先進的 7B 參數的模型(
6、如參數的模型(如 LWM-Text-128k 和和 Yi-6B-200k)在綜合長文在綜合長文本評測集本評測集 InfiniteBench 上相媲美上相媲美知乎大模型基建-極致以小博大極致以小博大+高性能低成本高性能低成本ui-sans-serif每隔每隔8 8個月個月知識密度翻倍知識密度翻倍同等知識量的模型參數量減半同等知識量的模型參數量減半知乎大模型基建-極致以小博大極致以小博大+高性能低成本高性能低成本訓練方法的改進是實現訓練方法的改進是實現以小博大的以小博大的關鍵之一關鍵之一對于不同規模的模型,對于不同規模的模型,最優訓練超參最優訓練超參數體現出明顯差異性數體現出明顯差異性合適的合適的
7、Learning Rate,不但會讓訓不但會讓訓練得更快,而且還會影響練得更快,而且還會影響loss最終收最終收斂的位置斂的位置知乎大模型基建-極致以小博大極致以小博大+高性能低成本高性能低成本Learning Rate Scheduler WSD schedulerWarmup-Stable-DecayCosine LSR要持續保持最低學習率,而要持續保持最低學習率,而WSD LSR可以在退火前持續使用最大學習率訓可以在退火前持續使用最大學習率訓練,能夠學習得更快練,能夠學習得更快WSD LRS在學習率恒定的在學習率恒定的Stable階段階段表現差于表現差于cosine,但是在最后的退火,但
8、是在最后的退火階段會快速下降階段會快速下降loss,達到或超越,達到或超越Cosine LRS的效果的效果知乎大模型基建-大模型能力平臺建設 平臺目標:平臺目標:降低大模型應用門檻:搭建面向業務、算法的全流程大模型應用平臺(AI 能力平臺),實現從數據管理、模型訓練、模型預測、模型部署上線等全生命周期服務,實現批量承接業務需求;算法工程師技術能力復用:沉淀算法能力到基礎算子,如多模態分類模型、海量標簽分類、統一文本生成模型等,實現算法方案的復用與遷移,低沉本滿足業務需求。平臺能力:平臺能力:數據處理:支持分類/生成數據,涵蓋標簽數據、訓練數據、預測數據、回溯數據等多種類型 模型支持:CPM 2
9、b、CPM 10b、CPM 20b、CPM 7b、CPM 80b、VisCPM(自研多模態大模型)等多個大模型,提供一站式自助服務 模型回溯:支持對大規模數據進行數據回溯知乎大模型基建-大模型能力平臺建設提效收益:提效收益:全生命周期零代碼能力:建立完善的零代碼數據處理、訓練、評估與上線機制,算法工程師單任務承接時間降低 80%,目前已占據算法工程師 90%+的任務;算法提效:完成數據處理任務 7000+個,完成訓練任務 1700+個,推理任務 2800+個;服務提效:上線至今已自助接入 300+個項目,零代碼上線 70+個服務;0202 AIAI搜索搜索知乎直答-AI搜索工具需求知識需求商品
10、推薦出行需求知乎直答-AI搜索發現發現AI AI 搜索:搜索:構建融合大模型和 RAG 的知識獲取新范式,滿足知乎用戶碎片化需求,提升用戶用戶體驗,最終提升用戶消費與留存 RAG 召回+生成方案,直接給用戶展現結果,降低檢索準確知識的門檻 多輪追問能力,更好的理解用戶意圖 function call 能力滿足用戶多樣化需求0303基于大模型的內容基于大模型的內容/用戶理解用戶理解AI 大模型/多模態大模型構建知乎內容/用戶標簽體系背景:背景:內容用戶標簽體系內容模型迭代更新周期長、識別質量提升已進入瓶頸期目標:目標:建立完備內容用戶畫像標簽體系縮短內容模型迭代周期、提升打標準確率技術方案:技術
11、方案:構建基于大模型的海量標簽打標系統,精準理解用戶和內容,構建完備用戶、內容標簽體系,并基于大模型內化知識,支持 zero-shot 動態擴展標簽體系,提升迭代效率基于大模型的海量標簽打標系統標簽召回模型:標簽召回模型:給定輸入文本,模型可以從海量候選標簽中快速、準確地召回一批語義相關的候選標簽。大模型生成技術:大模型生成技術:在召回模型獲得標簽后,可依據大模型的生成能力,來選擇更加符合文本語義的標簽,從而最終形成召回模型+生成模型的大模型處理思路。AI 大模型/多模態大模型構建知乎內容/用戶標簽體系-收益基于標簽召回+大模型生成的技術方案,實現迭代速度提升 5 倍版本迭代算法人效節省 90
12、%標簽的標注資源節省超過 90%,可實現零樣本支持新標簽打標;內容標簽模型準確率大幅提升,回答/文章標簽準確率升 25%應用收益:在推薦、教育、增長、知+、搜索等超過 30+個業務場景中取得了顯著正向收益0404 AIAI Embedding Embedding 應用于搜索召回排序應用于搜索召回排序 AI Embedding 應用于搜索召回排序公司內部存在大量基于相似能力的需求,例如:內容抄襲檢測 搜索 Query 改寫擴召回 相似推薦打散 相關性過濾/增強 內容打標我們基于 AI Embedding模型、Clip 模型、多模態大模型、Simhash等構建了一套功能完備的統一相似平臺,功能涵蓋
13、 基于embedding 能力的索引搜索、相似度計算以及聚類功能。平臺上線后,累計接入業務 80+平均每個業務的接入人效:2.5p/d-0.5p/d知乎大模型AI Embedding 應用于搜索召回排序基于搜索召回場景特點,深度定制基于搜索召回場景特點,深度定制AI Embedding AI Embedding 模型,模型,在通用搜索業務上取得了顯著業務收益:在通用搜索業務上取得了顯著業務收益:APP 端人均搜索時長+0.6%APP 端廣義CTR+1.6%APP 端點擊比+1.67%AI 生成智能標題-提升用戶創作體驗知乎想法智能標題生成過程ThanksThanks歡迎來知乎創作歡迎來知乎創作