《孫艷慶-智能新篇章有道子曰大模型的創新與開源探索.pdf》由會員分享,可在線閱讀,更多相關《孫艷慶-智能新篇章有道子曰大模型的創新與開源探索.pdf(34頁珍藏版)》請在三個皮匠報告上搜索。
1、智能新篇章:有道“子曰”大模型的創新與開源探索孫艷慶網易有道演講嘉賓孫艷慶網易技術總監網易有道AI語音交互團隊負責人2010年獲中科院聲學所信號與信息處理專業博士學位畢業后參與并主導了三星S-Voice在線/離線語音方案、打造了國內首發的免觸語音撥號/接聽、拍照等產品解決方案。19年初加入網易有道、組建語音技術團隊,在語音、大模型、AI老師等多方向上結合場景不斷打磨、取得突破,支撐聯通集團、網易云音樂、網易傳媒、長安深藍汽車、OPPO離線通話翻譯、寶寶樹、Hi Echo、有道詞典筆/聽力寶等明星產品!發表學術論文10余篇,授權專利10余件,帶領團隊在相關國際評測中獲得多項佳績。目前聚焦在教育學
2、習場景打造下一代、更極致好用的AI語音/大模型解決方案!目 錄CONTENTS1.人工智能技術與有道的布局2.“子曰”大模型的進展3.創新應用:基于“子曰”的實踐案例4.開源精神:有道的承諾與實踐人工智能技術與有道的布局PART 01團隊持續投入Transformer2023子曰大模型有道AI+教育布局“子曰”大模型的進展PART 02通用大模型概覽 大力出奇跡:大規模、高質量的數據集(可購買)算法和模型的優化(卷各參數、人才、經驗)算力資源(GPU、存儲、網絡帶寬,可購買)重金砸出的大模型LLMReleaseParametersContextPretraining TokensSupervi
3、sed fine-tuningHuman PreferencesMMLUMATHGSM8KHumanEvalGPT42023.3.141.7T128K86.40%52.90%92%67%Claude 3 Opus2024.3.4 2T200K40T86.80%61.00%95%85%Llama22023.7.1870B4K2T100K+1M+69.80%54.10%31%Grok-12023.3.17314B8K73%24%62.90%63.20%DBRX2023.3.27132B/36B32K12T73.70%66.90%70.10%Grok-1.52023.3.28128K81.30%50
4、.60%90%74.10%用有限的資源研發領域LLM 從 拿著錘子找釘子 到 對著釘子找錘子 資源用在刀刃上 從場景出發,聚焦在一兩個核心功能 不追求通用能力,但要在目標場景做到最好 設計一套完整的系統,而不全依賴大模型本 大模型只是核心能力,而不能解決所有問題 選擇適合的模型尺寸 7B、14B、70B?Qwen全家桶 不同階段看是動態的,長期看還是要往大參數發展 持續加強領域數據建設 通用的數據,可以快速獲取 領域的高質量數據,需要長期、持續的投入 算力資源 短期緊張,長期看,有各種辦法能夠緩解 技術要不斷突破LLM研發的各類技術DPO(Direct Preference Optimizat
5、ion)一種基于人類偏好優化語言模型的方法與RLHF不同,DPO不依賴于明確的獎勵建?;驈娀瘜W習過程它直接優化模型輸出,使其更符合人類的偏好DPO通過比較好的和不好的響應,然后調整模型以增加好的響應的概率這種方法簡化了訓練過程,減少了計算成本,并且能夠提高模型輸出的質量,特別是在情緒控制方面表現出色Agent賦予LLM一種策略性思維結構,模擬人類處理問題的方法Agent可以是“角色框架”,它讓模型能夠根據特定的角色或情境來生成響應這種方法使得LLM能夠更好地理解和響應復雜的用戶指令,提供更加個性化和情境化的交互體驗RAG(Retrieval-Augmented Generation)RAG結合
6、了信息檢索(IR)和生成模型的優勢,通過從大型文檔數據庫中檢索相關信息來增強模型的生成能力RAG技術首先提出了Naive RAG,然后發展到Advanced RAG,再到Modular RAG這些進展使得RAG能夠更有效地處理特定知識,提高生成內容的準確性和相關性RAG通過迭代搜索和生成過程,使得模型能夠生成更加準確和可靠的響應,特別是在需要最新信息或專業知識的場景中FT(Fine-tuning)FT是LLM開發中的一個關鍵步驟,它通過在特定任務的數據集上進一步訓練預訓練模型來提高模型的性能FT允許模型學習特定任務的特征和要求,從而在特定領域或任務中表現得更好FT可以增強模型的知識,調整輸出以
7、符合特定的結構、風格或格式,并教授模型執行復雜指令RAG流程的哲學 Retrieval(Augmented)Generation 問錯了問題 Chunk size多大?RAG=chunk+vectorDB+LLM?RAG流程的哲學 RAG vs finetune?RAG vs Long context LLM?RAG 滿滿的求生欲 Velocity(速度)Value(價值/成本)Volume(數據量)Variaty(數據多樣性)溯源RAG流程的哲學 RAG VS LLM context 硬盤 vs 內存 什么是RAG的關鍵?形式多樣的數據 高質量的輸入處理 靈活的查詢排序 LLM的理解力與可靠
8、性 摘要 翻譯 可控性Embedding/Rerank 訓練的好處 訓練的關鍵點 問題的定義 符合RAG需求 任務的安排 難易要合適 數據的生成 句子/GPT4 真實問題 Rerank score 可比較的分數為什么要Rerank?缺數據?數據越多越好嗎?精度與速度的tradeoff子曰大模型進展 2023年7月26日,網易有道正式發布“子曰”大模型 2023年11月4日,“子曰”教育大模型正式通過相關備案國內首個教育領域的垂直大模型 2024年1月3日,正式推出子曰教育大模型2.0Show case:文言文翻譯 一個偏科生的故事 詞典筆 紅海 用戶痛點:英語、古文 有道的標簽:英語 突破口
9、大模型:古文翻譯 一個top1的核心能力 查詞翻譯 首屏 流量入口 場景分類 持續迭代的場景和需求 語文精講不止是LLM 打造更加極致的交互體驗 多模態大模型(語音、圖像)傳統ASR、TTS、OCR技術的結合 不止是WER 斷句、標點 影響很多交互的基礎 專有名詞 難,卻非常重要 技術選型 Transformer、Conformer、Paraformer OpenAI Whisper Meta Massively Multilingual Speech AudioPaLM、SpeechGPT 業務場景驅動 教材 文言文、古詩 方言、多語種打造極致的精講能力 豐富的教育場景知識庫 精準的教研、知
10、識點的提取 智能的字幕技術(支持音視頻的輸入)智能的子曰大模型講解能力親切有溫度的聲音:類真人TTS技術 在教育場景,發音、聽力、口語,相比文字更有感染力 從能發音,到動聽、好聽,標準、地道,甚至還要有口音 口語教練、AI老師,則需要AI更優人格魅力、親和力和感染力 對TTS提出了越來越高的要求!一些不同場景的樣例 AI爸媽講故事 不同風格的網紅老師、主播 來一段動畫吧創新應用:基于“子曰”的實踐案例PART 03從LLM到應用的靈活架構 LLM作為整個應用的大腦和核心 以自研RAGQAnything為關鍵,擴展LLM的能力 基于LLM+QAnything搭建一系列關鍵應用 不局限于某個單一大
11、模型 根據應用場景靈活組合有道學習機X20 小P老師方案輸出答案解析類真人TTS文本輸入輸入拍照輸入(OCR)語音輸入(ASR)小模型端側NPU處理小模型端側NPU處理大模型云端GPU處理子曰大模型檢索增強知識庫、教輔資料、題庫基座模型全科能力(知識理解、語言能力、數理邏輯)多模態識別,支持文本、圖片、音頻等多種形式輸入支持全學段、全學科(10科科目)講解AI智能解答,支持答案解析、知識點、視頻講解和舉一反三,支持多輪交互,蘇格拉底式的教學Hi Echo 全球首個虛擬人口語私教1v1口語專屬教練海量對話場景和話題從小學到職場,分級對話評價,發音、語法、單詞全面提升 2023年8月 詞典筆X6
12、pro上線 2023年8月 聽力寶Pro上線 2023年10月 APP上線詞典筆X6 Pro Hi Echo方案生成對話內容子曰大模型云處理虛擬人形象語音識別ASR語音合成TTS本地計算(RK3562 NPU)低延遲、低成本開源精神:有道的承諾與實踐PART 04QAnything有道開源RAG引擎 關鍵模塊 文檔解析 Embedding/rerank LLM vectorDB 主要流程 Query理解 搜索 相關性排序 LLM生成答案EmotiVoice易魔聲有道開源情感TTS引擎 為什么開源?行業發展趨勢和潮流 有道AI有2B的業務場景 開源期待共建 開源短期目標 Star 形成一定口碑&
13、影響力 更了解用戶需求https:/ trending流行榜第一如今已達到 6.2k Star上線后,完成多個版本迭代:提升易用性:demo page、docker、類openaitts的api支持任意中英文混合文本的合成,解決了一系列崩潰問題新增voice list、roadmap等一系列文檔在智云上線 The EmotiVoice HTTP API發布Voice Cloning with your personal dataMAC版獨立APP,12月底發布QAnything有道開源RAG引擎 202401-Retrieval-Augmented Generation 萬物皆可問 doc,ppt,excel,pdf,圖片等 網頁鏈接 視頻/音頻 一鍵安裝,快速使用 https:/qanything.ai https:/ 支持純本地部署 Github 8900 starsQAnything有道開源RAG引擎 跨語言問答中英日韓 多領域教育、醫療、法律金融、科研、客服 豎排對比Embedding 橫排對比Rerank 整體組合最優https:/ AI to B 30000+用戶 十幾個行業 近百個進行中的訂單 包括大型央國企等THANKS