《海之翼-周旭輝-chatKnowHow:大模型和企業專門數據結合進行知識管理的案例.pdf》由會員分享,可在線閱讀,更多相關《海之翼-周旭輝-chatKnowHow:大模型和企業專門數據結合進行知識管理的案例.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、chatKnowHow:大模型與行業知識案例 周旭輝 北京海之翼科技 創始人&CEO 個人簡介 周旭輝 北京海之翼科技 創始人&CEO 人生發財靠康波:3波機會 互聯網:百度大數據用戶畫像;金融、汽車 投資:15倍輝,西二旗馬斯克 AIGC:ALL IN,正在趕 正在做3件事情 HaiGPT:大模型基座 chatKnowHow:大模型行業數據中間層 chatStock:大模型應用-投資助手 基本情況 AI算法專家,目前ALL IN大模型方向 曾任百度車聯網首席架構師、騰訊T12 國際頂會IJCAI2019 論文,專利10+件 目錄 01 內容概述 02 3個案例 03 技術實現 04 總結 聽
2、眾收益 大模型 應用案例 3個案例 商業價值 新方式 PDF、Word、Excel 如何通過chat的方式 獲取想要的答案 關鍵技術 3種技術選型 細節打磨優化 內容概述 專門知識、訣竅 KnowHow 文檔、數據庫 機密性 搜索 傳統方式 文檔網盤 搜索 知識圖譜 存在問題 知識不易獲取 成本高 知識孤立 數據安全 Chat助手 思路 智能提示 目錄 01 內容概述 02 3個案例 03 技術實現 04 總結 案例一:汽車使用說明書智能助手場景 某汽車品牌說明書-503頁 某新能源汽車說明書-1268頁 案例一:汽車使用說明書智能助手痛點 太長了,很少看 打電話給客服 客服65%的問題都是說
3、明書 案例一:汽車使用說明書智能助手數據與挑戰 數據來源 說明書 客戶問題歷史庫 挑戰 語義理解:儀表盤有個人背個大寶劍是怎么回事?安全帶指示燈亮了 案例一:汽車使用說明書智能助手解決思路 說明書 歷史客戶問題 大模型技術 APP,客服機器人 智能說明書 目錄 01 內容概述 02 3個案例 03 技術實現 04 總結 3種技術方案 大模型技術 基座模型+ptuning等微調 資源消耗尚可 效果難控制 胡說八道(幻覺)技術方案 特點 Pretrain+全量SFT/指令學習 資源消耗大 效果有保證 對Pretrain要求高 不方便小調整 Embeddings,langChain 資源消耗小 效果
4、有保證 方便做后續控制 技術實現 初版 技術實現 改進版 內容融合 文本轉向量模型 答案生成與優化 最終答案 結果修正 數據獲取適配 PDF EXCEL PPT TXT DB 智能文檔分割 段落分割 內容總結 超長處理 引用位置 位置去重 位置合并 鏈接添加 應用使用 流量控制 多輪對話 流式接口 人工標注 迭代優化 內容向量 基座模型適配 Attr權限域 向量數據庫 深度平均網絡編碼器 問題向量 問題推薦 embeddings 語義檢索 召回排序 權限過濾 敏感過濾 排序算法 向量召回 向量數據庫 向量距離計算 工作原理 向量數據庫 Faiss:是一個用于高效相似性搜索和密集向量聚類的開源庫
5、 Elasticsearch:knn search底層其實使用的是HNSW PostgreSQL:可通過擴展 pgvector 實現一些簡單的向量計算 Redis:可通過一些擴展模塊,如RedisAI和RediSearch,實現一定程度的向量數據處理和計算功能 向量數據庫 向量檢索算法 基于樹(Kdtree、Annoy)基于圖(NSW、HNSW)基于量化(SQ、PQ)倒排索引 問題推薦 句向量 k獲取技巧tokens/per 座椅問題 空調問題 車內娛樂問題 其他問題 信息增益加權 聚類計算 tf-idf,左右信息熵計算 怎么調節前排座椅?后排怎么放倒?怎么使用視頻投屏?推薦問題生成 產品技術
6、架構 效果示例 社會價值 生產一噸紙需要3立方米木材 每本書按0.5公斤,1000本書=1.5棵樹 每年有多少輛車?2000萬 1.5*2000萬/1000 3萬棵樹 案例二:智能銷售助手 案例二:智能銷售助手示例 案例三:質量防火墻 項目背景 某汽車品牌漏油事件發酵 查找系統發現2個月前就有反饋 客戶意圖理解的能力,顛覆 案例三:質量防火墻 數據 調研 車聯網數據 E-call 保修 數據 懂車帝 汽車 之家 論壇 抱怨 投訴 數據 400客服數據 汽車質量官網 線上 線下 主動 被動 公域 私域 客戶之聲客戶之聲 案例三:質量防火墻 產品示例 目錄 01 內容概述 02 3個案例 03 技
7、術實現 04 總結 總結&下一步展望 3個實際的案例,非常大的商業價值 Embeddings技術是個非常好的方向 圖片、遠程讀取、Auto 交個朋友,Q&A Q&A 歡迎大模型項目合作 附錄一 Step1Step1 收集演示數據并訓練監督策略。收集演示數據并訓練監督策略。從提示數據集中采樣提示內容 標記器演示所需的輸出行為 通過監督學習行為的數據對GPT-3.5進行調整 Step 2Step 2 收集比較數據并訓練獎勵模型。收集比較數據并訓練獎勵模型。采集一個提示和多個模型輸出 貼標機將最佳到最差進行排名并輸出 這些數據用于訓練獎勵模式 Step 3Step 3 使用使用 PPO 強化學習算法針對強化學習算法針對獎勵獎勵模型優化策略模型優化策略。從數據集中采樣新提示 通過受監督策略對PPO 模型進行初始化 生成策略并輸出 獎勵模型計算需要輸出的獎勵 獎勵用于使用 PPO 更新策略 我們通過給與獎勵和懲罰來訓練 寫一個關于水獺的故事 很久以前.向6歲的孩子解釋強化學習 向6歲的孩子解釋強化學習 A A B B C C D D D D C C A A B B PPO RM SFT RM 附錄二:DAN深度平均網絡編碼器