《小米-張俊博-聲音技術的未來——大模型帶來的音頻算法革新.pdf》由會員分享,可在線閱讀,更多相關《小米-張俊博-聲音技術的未來——大模型帶來的音頻算法革新.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、聲音技術的未來大模型帶來的音頻算法革新張俊博小米AI實驗室 語音技術專家“小米語音技術專家。博士畢業于中國科學院聲學研究所,多年從事智能語音技術的研究和應用,在語音識別、發音評測、語音合成、音頻標記等領域都做過深入的工作,在頂級會議和期刊發表論文 30 余篇,著有出版物Kaldi 語音識別實戰。目前在小米負責若干項聲學語音新技術的研發?!闭埐迦肽恼掌v師簡介 對大模型的思考 小米的音頻大模型探索內容提要對大模型的思考是“發現”,而不是“發明”原理上是量變,效果上是質變無法解釋,只好說“涌現”大模型的成功,證明了這樣的路線是可行的為 AI 研究指明了方向Llama2 模型:沒有任何模型結構上的
2、創新為什么大模型具備如此神奇的能力?但大模型研發并沒有技術原理上的門檻雖然不知道麥克斯韋方程組不妨礙古人發明指南針雖然暫時未能全面理解大模型不妨礙我們做出更強的大模型不知道人類對它的原理還遠遠稱不上理解雨后春筍般的大模型研發圖片來源小米自研大語言模型本地化、輕量部署手機端側大模型部分場景媲美云端文本形式訓練數據相對更易獲取和處理大模型首先以文本模態出現但人類更傾向于使用視覺和聲音交互大模型=大語言模型?GPT4-V(ision)UserWhat is unusual about this image?GPT-4The unusual thing about this image is that
3、 a man is ironing clothes on an ironing board attached to the roof of a moving 令人震驚的多模態能力強人工智能已實現?G小米的音頻大模型探索全球最大消費級 IoT 平臺6.99 億 IoT 平臺已連接設備數1370 萬擁有 5 個及以上小米 IoT 設備的用戶數AI 時代的小米小米聲學語音技術在手機和 IoT 設備上針對垂域的識別率極高,且已經探索出成熟的迭代優化流程小愛同學背后的語音識別技術框架但是!這不是大模型時代的方案技術革新勢在必行Whisper:大模型語音識別Whisper 原理有何不同?更先進的模型結構?
4、No模型結構并無不同多語種訓練數據帶有多任務標簽680,000 hours of multilingual and multitask supervised data collected from the AudioPaLM:多語種語音直譯大語言模型作為模型骨架和初始化參數多語種音頻和文本數據迭代訓練用 prompt 約束語音識別領域,提升識別率把大語言模型輸出通過 cross-attention 聯入 encoder小米 Prompt-ASR基于大模型的語音合成更加自然支持 Prompt 定制視頻來源https:/ a little closer while our guide lets t
5、he light of his lamp fall upon the black wall at your side.baseline中文說話人合成效果VALL-E XVALL-E(X)算法框架基于大模型的小米自然語音 TTS使用小愛默認音色說話人遷移(prompt)小米聲音識別技術目前支持 85 種聲音事件大模型時代的聲音理解我們的算法框架基座音頻編碼器模型開源可下載訓練數據時長超過30年參數量超過10億正在探索百億參數量的模型獨創的一致性集成蒸餾技術論文已被 ICASSP 2024 接收基座音頻編碼器的多任務應用聲音增強/編輯/生成已有成果其實已經具備了部分大模型的能力需要進一步整合基于 Prompt 的聲音生成結語 大模型的成功為 AI 研究指明了方向 多任務統一學習可以帶來真正的理解能力和強大的任務自推廣能力 各任務的統一、各模態的統一是大勢所趨微 信 官 方 公 眾 號:壹 佰 案 例關 注 查 看 更 多 年 度 實 踐 案 例