當前位置：首頁 > 報告詳情

快手端到端語音識別技術的探索與實踐-李杰.pdf

上傳人： 2*** 編號：127449 2023-05-01 PDF PDF 39頁 7.18MB

該報告所屬合集： 2021AlCon全球人工智能與機器學習技術大會·北京站演講PPT合集

打包下載報告合集

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/39

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《快手端到端語音識別技術的探索與實踐-李杰.pdf》由會員分享，可在線閱讀，更多相關《快手端到端語音識別技術的探索與實踐-李杰.pdf（39頁珍藏版）》請在三個皮匠報告上搜索。

1、快手快手直播生態中的直播生態中的AIAI語音技術語音技術李杰博士快手資深語音算法專家2021.11李杰，李杰，博士，快手資深語音識別算法專家。研究方向為基于深度學習的語音識別，在語音領域國際頂會上，包括ICASSP、INTERSPEECH、ASRU等，發表論文十幾篇。2016年加入微軟（亞洲）互聯網工程院，擔任語音技術研究員。2017年底加入快手，目前負責快手語音識別組的技術研發和項目落地，四次獲得公司研發線-技術突破獎。演講人介紹演講人介紹快手快手-國民短視頻及直播社區國民短視頻及直播社區流量內容粘性3.2043.204億億日活用戶5.7295.729億億月活用戶1.81.8億億+海外月活

2、用戶百百億量級億量級短視頻庫存100min+100min+日均使用時長140140億億+對人互相關注滲透率滲透率78%78%直播日活滲透率AIAI語音與直播生態語音與直播生態直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向：本次報告主要聚焦在以下技術方向：直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段音頻事件檢測音頻事件檢測游戲直播間：游戲直播間：檢測特定音效的起止時間持續時間很短

3、秀場直播間：秀場直播間：檢測語音、伴奏、唱歌的起止時間音頻事件檢測模型改進音頻事件檢測模型改進薩里大學薩里大學20182018年年GCRNNGCRNN模型：模型：2017年DCASE比賽第一名快手線上測試集音樂起止點檢測任務，F1值84.4%FBankFeature Feature SelectionSelection音頻分類事件檢測Transformer Transformer EncoderEncoderTokenToken提出提出FS-TransformerFS-Transformer模型：模型：改進1：GCNN-Feature Selection模塊改進2：RNN-Transforme

4、r編碼器F1值92.3%，+7.9pp自研自研FS-TransformerFS-Transformer模型：模型：音頻事件檢測效果展示音頻事件檢測效果展示游戲直播間：游戲直播間：視頻左側展示游戲特效起止時間秀場直播間：秀場直播間：視頻左上角展示語音、伴奏、唱歌起止時間直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向：本次報告主要聚焦在以下技術方向：直播間直播間內容理解內容理解聲學事件檢測音頻分離音頻分離語種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本

5、文本精彩片段精彩片段首次提出多任務音頻分離首次提出多任務音頻分離單任務單任務音頻分離音頻分離語音增強：從含噪語音中恢復高質量語音語音分離：分離多個說話人聲音音樂分離：對音樂分離出人聲以及不同樂器歌唱人聲分離：分離唱歌的人聲和伴奏多任務多任務音頻分離音頻分離首次提出首次提出MTASSMTASS任務任務MTASSMTASS：Multi-Task Audio Source Separation單系統輸出三個音軌：語音、音樂和噪音語音：正常的人說話的聲音音樂：唱歌人聲（清唱）、伴奏以及兩者的組合噪音：以上兩種之外的背景聲，包含特效音公開MTASS數據集自研多任務音頻分離模型：自研多任務音頻分離模型：C

6、omplex-MTASSNetComplex-MTASSNet多任務音頻分離數據集：多任務音頻分離數據集：已公開多任務音頻分離模型多任務音頻分離模型Complex-Complex-MTASSNetMTASSNet：ASRU 2021已公開和主流音頻分離模型效果對比Complex-MTASSNet結構自研多任務音頻分離模型：自研多任務音頻分離模型：EAD-ConformerEAD-ConformerEAD-ConformerEAD-Conformer超越多種模型超越多種模型MTASSMTASS任務任務SOTASOTA結果結果投稿 ICASSP 2022和主流音頻分離模型效果和效率對比EAD-Co

7、nformer結構多任務音頻分離效果展示多任務音頻分離效果展示語音語音+歌曲：歌曲：原始視頻：語音：音樂：噪音：多任務音頻分離效果展示多任務音頻分離效果展示語音語音+伴奏：伴奏：原始視頻：語音：音樂：噪音：多任務音頻分離效果展示多任務音頻分離效果展示語音語音+清唱：清唱：原始視頻：語音：音樂：噪音：直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向：本次報告主要聚焦在以下技術方向：直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音

8、識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段語種識別語種識別語種識別是指從一段語音中識別出語種或方言的類別，如普通話、日、韓等。應用非常廣泛，不僅可以作為語音識別和翻譯系統的前端預處理模塊，也可以用于定向廣告和生物特征驗證。漢語：漢語：普通話為主包括10大方言片區除去官話，其余9種約占總人口的32.3%共有129種細分地方話少數民族語言：少數民族語言：藏語安多、衛藏、康巴蒙古語維吾爾語語種識別：動態多尺度卷積模型語種識別：動態多尺度卷積模型TianLong Kong,et al.,“Dynamic Multi-Scale Convolution for Dialect Identifi

9、cation”,Interspeech 2021.三個創新點：三個創新點：首次將動態卷積核引入語種/方言識別領域局部多尺度學習，在更細粒度層面上對多尺度特征進行表征學習全局多尺度池化，能夠聚合模型多個層次的特征動態多尺度卷積模型結構動態多尺度卷積模型結構Interspeech 202120202020東方語言識別挑戰賽東方語言識別挑戰賽SOTASOTA結果結果2020年東方語言識別（OLR）挑戰賽，訓練數據共有16種語言，包括日、韓、閩南話、四川話、上海話等語種/方言。動態多尺度模型達到動態多尺度模型達到SOTASOTA結果（結果（與2020 OLR挑戰賽排名第一的系統相比）：）：參數量1/1

10、11/11：2.9M vs.33.1M EER相對45%45%提升提升：6.52%vs.11.97%直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向：本次報告主要聚焦在以下技術方向：直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語音識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段語音識別在直播場景中的應用簡介語音識別在直播場景中的應用簡介（近似）實時將全量直播語音內容轉寫成文字目標：目標：為直播內容理解提供重要特征價值：價值

11、：廣泛用于各業務方，包括直播電商、搜索、推薦、安全等應用：應用：海量高并發聲學環境復雜近似實時特點：特點：直播場景中的語音識別，稱為直播語音轉寫，是直播內容理解的重要基礎能力。直播語音轉寫三次技術方案升級直播語音轉寫三次技術方案升級三次技術方案升級三次技術方案升級TDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2語音識別混合框架和端到端框架對

12、比語音識別混合框架和端到端框架對比框架對比：框架對比：混合框架 VS.端到端框架端到端框架的特點端到端框架的特點優勢：優勢：劣勢：劣勢：泛化性泛化性信息豐信息豐富度富度魯棒性魯棒性精簡精簡準確準確+20%+20%高效高效+10 x+10 x準確準確+高效高效，特別符合直播語音轉寫近似實時和高并發的特點。直播語音轉寫第一次技術方案升級直播語音轉寫第一次技術方案升級第一次技術方案升級：混合框架第一次技術方案升級：混合框架-Transformer-TransformerTDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-F

13、ast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 TransformerTransformer方案：方案：TransformerTransformer方案優勢：方案優勢：簡潔：全神經端到端，語音到文字映射精度高：+2.75pp速度快：解碼速度10 xD.Li et al,“Speech-Transformer:A No-Recurrence Sequence-to-Sequence Model for Speech Recognition.”ICASSP 2018Y.Zh

14、ao et al,The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition.ICASSP 2019直播語音轉寫第二次技術方案升級直播語音轉寫第二次技術方案升級第二次技術方案升級：第二次技術方案升級：Transformer-ConformerTransformer-ConformerTDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q22020

15、2020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 ConformerConformer方案：方案：ConformerConformer方案優勢：方案優勢：增加了時序可分離卷積機制可捕捉語音特征的短時依賴關系精度高：+2.73ppGulati A,et al.Conformer:Convolution-augmented transformer for speech recognitionJ.arXiv preprint arXiv:2005.08100,2020.直播語音轉寫第三次技術方案升級直播語音轉寫第三次技術方案升級第三次技術方案升級：第三次技術方案升級：Co

16、nformer-Conformer-FastC2FastC2 (FastFast-C Conformeronformer-C-CTC)TC)TDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 C Conformeronformer-C-CTCTC方案：方案：C Conformeronformer-C-CTCTC方案優勢：方案優勢：多任務Loss

17、訓練，精度+10%可輸出置信度、時間戳、文本FastC2FastC2：推理速度深度優化：推理速度深度優化算子融合混合精度量化顯存優化輸入序列padding移除直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向：本次報告主要聚焦在以下技術方向：直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語音識別直播智能剪輯直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段直播剪輯的簡介直播剪輯的簡介直播剪輯直播剪輯精彩檢測智能集錦促進生產促進生產邊播邊剪一

18、鍵發布直播引流直播引流實時分發流量助推提升體驗提升體驗提升觀感輔助漲粉直播剪輯的方案直播剪輯的方案直播拉流直播拉流才藝表演檢測音效檢測講解檢測高能片段檢測原唱去除精彩打分精彩片段識別精彩片段識別歌曲識別自動字幕智能配音智能集錦智能視頻摘要精彩片段創作精彩片段創作質量打分 Top K 排序流量分發流量分發秀場類顏值類游戲類電商類直播智能剪輯效果展示：直播智能剪輯效果展示：游戲：秀場-跳舞：電商：秀場-唱歌直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向：本次報告主要聚焦在以下技術方向：直播間直播間內容理解內容理解聲學事件檢測音頻分離語

19、種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段智能變聲智能變聲智能變聲是指用深度學習的方法替換一段語音中的說話人音色，而不改變其內容?？梢詫⒙曇舭凑斩喾N形式進行再創作，比如跨性別變聲、普通話變方言、歌唱變聲等，賦能直播、短視頻、虛擬人等多個場景。VSVS智能變聲智能變聲變小姐姐變小姐姐變小哥哥變小哥哥變卡通小新變卡通小新變四川方言變四川方言音素內容提取音素內容提取b ai2 r i4 y i1 sh an1 j in4（白日依山盡白日依山盡）目標音色

20、選取目標音色選取小姐姐小姐姐/小哥哥小哥哥/方言方言語音轉換模型語音轉換模型變聲效果Ying Zhang,Hao Che,Chenxing Li,Xiaorui Wang，“One-shot Voice Conversion Based ON Speaker Aware Module”,in ICASSP 2021,6-11 June 2021,Toronto,Canada.Ying Zhang,Hao Che,Xiaorui Wang,“Non-parallel Sequence-to-Sequence Voice Conversion for Arbitrary Speakers,”in ISCSLP 2021，24-26 January，HongKong,China深度降噪網絡聲碼器變聲系統原始語音變聲后語音發音單元表征模型語音轉換模型防抖動，實現實時變聲多核并行端上實現模型壓縮，動態下發節省資源智能變聲：直播場景實現端上實時變聲智能變聲：直播場景實現端上實時變聲智能變聲效果展示智能變聲效果展示智能變聲效果展示智能變聲效果展示THANKSTHANKS

相關圖表

本文主要介紹了快手直播生態中AI語音技術的應用與研究，由資深語音算法專家李杰博士主講。李杰博士在深度學習語音識別領域有深厚的研究基礎，曾在國際頂會上發表論文十幾篇。2016年加入微軟亞洲互聯網工程院，2017年底加入快手，負責快手語音識別組的技術研發和項目落地，四次獲得公司研發線-技術突破獎。本次報告主要聚焦在以下技術方向：直播間內容理解、聲學事件檢測、音頻分離、語種識別、語音識別、直播智能剪輯、直播間內容生產、智能變聲。其中，直播間內容理解包括游戲直播間的內容理解和秀場直播間的內容理解。聲學事件檢測包括游戲直播間和秀場直播間的聲學事件檢測。音頻分離方面，首次提出多任務音頻分離，并在薩里大學2018年GCRNN模型基礎上提出FS-Transformer模型和EAD-Conformer模型。語種識別方面，提出動態多尺度卷積模型，并在2020年東方語言識別挑戰賽中達到SOTA結果。語音識別方面，介紹了語音識別在直播場景中的應用，并三次技術方案升級，從TDNN-F混合框架到Fast-Conformer-CTC。直播智能剪輯方面，介紹了直播剪輯的方案和效果展示，包括才藝表演檢測、音效檢測、講解檢測、高能片段檢測等。最后，介紹了智能變聲技術，實現端上實時變聲，并展示了變聲效果。

"快手直播AI語音技術探秘" "直播生態中的AI語音創新應用" "智能變聲技術如何改變直播體驗"

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站