當前位置:首頁 > 報告詳情

小米-張俊博-聲音技術的未來——大模型帶來的音頻算法革新.pdf

上傳人: 張** 編號:177448 2024-10-01 31頁 1.33MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

張俊博,小米AI實驗室語音技術專家,博士畢業于中國科學院聲學研究所,長期從事智能語音技術研究和應用。他負責小米聲學語音新技術研發,著有《Kaldi 語音識別實戰》一書。文章討論了大模型帶來的音頻算法革新,指出大模型的成功證明了量變到質變的“涌現”現象,為AI研究提供了新的方向。小米在音頻大模型探索方面取得了顯著成果,如Whisper大模型語音識別和AudioPaLM多語種語音直譯。小米的聲音識別技術已支持85種聲音事件,并正在探索百億參數量模型。大模型時代的聲音理解算法框架已具備部分大模型能力,需要進一步整合。
"小米音頻大模型如何改變語音技術?" "大模型時代的聲音技術有哪些突破性進展?" "小米如何利用大模型提升語音識別和合成技術?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站