《快手端到端語音識別技術的探索與實踐-李杰.pdf》由會員分享,可在線閱讀,更多相關《快手端到端語音識別技術的探索與實踐-李杰.pdf(39頁珍藏版)》請在三個皮匠報告上搜索。
1、快手快手直播生態中的直播生態中的AIAI語音技術語音技術李杰 博士快手資深語音算法專家2021.11李杰,李杰,博士,快手資深語音識別算法專家。研究方向為基于深度學習的語音識別,在語音領域國際頂會上,包括ICASSP、INTERSPEECH、ASRU等,發表論文十幾篇。2016年加入微軟(亞洲)互聯網工程院,擔任語音技術研究員。2017年底加入快手,目前負責快手語音識別組的技術研發和項目落地,四次獲得公司研發線-技術突破獎。演講人介紹演講人介紹快手快手-國民短視頻及直播社區國民短視頻及直播社區流量內容粘性3.2043.204億億日活用戶5.7295.729億億月活用戶1.81.8億億+海外月活
2、用戶百百億量級億量級短視頻庫存100min+100min+日均使用時長140140億億+對人互相關注滲透率滲透率78%78%直播日活滲透率AIAI語音與直播生態語音與直播生態直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向:本次報告主要聚焦在以下技術方向:直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段音頻事件檢測音頻事件檢測游戲直播間:游戲直播間:檢測特定音效的起止時間持續時間很短
3、秀場直播間:秀場直播間:檢測語音、伴奏、唱歌的起止時間音頻事件檢測模型改進音頻事件檢測模型改進薩里大學薩里大學20182018年年GCRNNGCRNN模型:模型:2017年DCASE比賽第一名快手線上測試集音樂起止點檢測任務,F1值84.4%FBankFeature Feature SelectionSelection音頻分類事件檢測Transformer Transformer EncoderEncoderTokenToken提出提出FS-TransformerFS-Transformer模型:模型:改進1:GCNN-Feature Selection模塊改進2:RNN-Transforme
4、r編碼器F1值92.3%,+7.9pp自研自研FS-TransformerFS-Transformer模型:模型:音頻事件檢測效果展示音頻事件檢測效果展示游戲直播間:游戲直播間:視頻左側展示游戲特效起止時間秀場直播間:秀場直播間:視頻左上角展示語音、伴奏、唱歌起止時間直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向:本次報告主要聚焦在以下技術方向:直播間直播間內容理解內容理解聲學事件檢測音頻分離音頻分離語種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本
5、文本精彩片段精彩片段首次提出多任務音頻分離首次提出多任務音頻分離單任務單任務音頻分離音頻分離語音增強:從含噪語音中恢復高質量語音語音分離:分離多個說話人聲音音樂分離:對音樂分離出人聲以及不同樂器歌唱人聲分離:分離唱歌的人聲和伴奏多任務多任務音頻分離音頻分離首次提出首次提出MTASSMTASS任務任務MTASSMTASS:Multi-Task Audio Source Separation單系統輸出三個音軌:語音、音樂和噪音語音:正常的人說話的聲音音樂:唱歌人聲(清唱)、伴奏以及兩者的組合噪音:以上兩種之外的背景聲,包含特效音公開MTASS數據集自研多任務音頻分離模型:自研多任務音頻分離模型:C
6、omplex-MTASSNetComplex-MTASSNet多任務音頻分離數據集:多任務音頻分離數據集:已公開多任務音頻分離模型多任務音頻分離模型Complex-Complex-MTASSNetMTASSNet:ASRU 2021已公開和主流音頻分離模型效果對比Complex-MTASSNet結構自研多任務音頻分離模型:自研多任務音頻分離模型:EAD-ConformerEAD-ConformerEAD-ConformerEAD-Conformer超越多種模型超越多種模型MTASSMTASS任務任務SOTASOTA結果結果投稿 ICASSP 2022和主流音頻分離模型效果和效率對比EAD-Co
7、nformer結構多任務音頻分離效果展示多任務音頻分離效果展示語音語音+歌曲:歌曲:原始視頻:語音:音樂:噪音:多任務音頻分離效果展示多任務音頻分離效果展示語音語音+伴奏:伴奏:原始視頻:語音:音樂:噪音:多任務音頻分離效果展示多任務音頻分離效果展示語音語音+清唱:清唱:原始視頻:語音:音樂:噪音:直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向:本次報告主要聚焦在以下技術方向:直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音
8、識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段語種識別語種識別語種識別是指從一段語音中識別出語種或方言的類別,如普通話、日、韓等。應用非常廣泛,不僅可以作為語音識別和翻譯系統的前端預處理模塊,也可以用于定向廣告和生物特征驗證。漢語:漢語:普通話為主包括10大方言片區除去官話,其余9種約占總人口的32.3%共有129種細分地方話少數民族語言:少數民族語言:藏語安多、衛藏、康巴蒙古語維吾爾語語種識別:動態多尺度卷積模型語種識別:動態多尺度卷積模型TianLong Kong,et al.,“Dynamic Multi-Scale Convolution for Dialect Identifi
9、cation”,Interspeech 2021.三個創新點:三個創新點:首次將動態卷積核引入語種/方言識別領域局部多尺度學習,在更細粒度層面上對多尺度特征進行表征學習全局多尺度池化,能夠聚合模型多個層次的特征動態多尺度卷積模型結構動態多尺度卷積模型結構Interspeech 202120202020東方語言識別挑戰賽東方語言識別挑戰賽SOTASOTA結果結果2020年東方語言識別(OLR)挑戰賽,訓練數據共有16種語言,包括日、韓、閩南話、四川話、上海話等語種/方言。動態多尺度模型達到動態多尺度模型達到SOTASOTA結果(結果(與2020 OLR挑戰賽排名第一的系統相比):):參數量1/1
10、11/11:2.9M vs.33.1M EER相對45%45%提升提升:6.52%vs.11.97%直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向:本次報告主要聚焦在以下技術方向:直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語音識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段語音識別在直播場景中的應用簡介語音識別在直播場景中的應用簡介(近似)實時將全量直播語音內容轉寫成文字目標:目標:為直播內容理解提供重要特征價值:價值
11、:廣泛用于各業務方,包括直播電商、搜索、推薦、安全等應用:應用:海量高并發聲學環境復雜近似實時 特點:特點:直播場景中的語音識別,稱為直播語音轉寫,是直播內容理解的重要基礎能力。直播語音轉寫三次技術方案升級直播語音轉寫三次技術方案升級三次技術方案升級三次技術方案升級TDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2語音識別混合框架和端到端框架對
12、比語音識別混合框架和端到端框架對比框架對比:框架對比:混合框架 VS.端到端框架端到端框架的特點端到端框架的特點優勢:優勢:劣勢:劣勢:泛化性泛化性信息豐信息豐富度富度魯棒性魯棒性精簡精簡準確準確+20%+20%高效高效+10 x+10 x準確準確+高效高效,特別符合直播語音轉寫近似實時和高并發的特點。直播語音轉寫第一次技術方案升級直播語音轉寫第一次技術方案升級第一次技術方案升級:混合框架第一次技術方案升級:混合框架-Transformer-TransformerTDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-F
13、ast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 TransformerTransformer方案:方案:TransformerTransformer方案優勢:方案優勢:簡潔:全神經端到端,語音到文字映射精度高:+2.75pp速度快:解碼速度10 xD.Li et al,“Speech-Transformer:A No-Recurrence Sequence-to-Sequence Model for Speech Recognition.”ICASSP 2018Y.Zh
14、ao et al,The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition.ICASSP 2019直播語音轉寫第二次技術方案升級直播語音轉寫第二次技術方案升級第二次技術方案升級:第二次技術方案升級:Transformer-ConformerTransformer-ConformerTDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q22020
15、2020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 ConformerConformer方案:方案:ConformerConformer方案優勢:方案優勢:增加了時序可分離卷積機制可捕捉語音特征的短時依賴關系精度高:+2.73ppGulati A,et al.Conformer:Convolution-augmented transformer for speech recognitionJ.arXiv preprint arXiv:2005.08100,2020.直播語音轉寫第三次技術方案升級直播語音轉寫第三次技術方案升級第三次技術方案升級:第三次技術方案升級:Co
16、nformer-Conformer-FastC2FastC2 (FastFast-C Conformeronformer-C-CTC)TC)TDNN-FTDNN-F混合框架混合框架TransformerTransformerConformerConformerFast-Fast-Conformer-Conformer-CTCCTC20182018年年Q2Q220202020年年Q1Q120202020年年Q3Q320212021年年Q2Q2 C Conformeronformer-C-CTCTC方案:方案:C Conformeronformer-C-CTCTC方案優勢:方案優勢:多任務Loss
17、訓練,精度+10%可輸出置信度、時間戳、文本FastC2FastC2:推理速度深度優化:推理速度深度優化算子融合混合精度量化顯存優化輸入序列padding移除直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向:本次報告主要聚焦在以下技術方向:直播間直播間內容理解內容理解聲學事件檢測音頻分離語種識別語音識別直播智能剪輯直播智能剪輯直播間直播間內容生產內容生產智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段直播剪輯的簡介直播剪輯的簡介直播剪輯直播剪輯精彩檢測智能集錦促進生產促進生產邊播邊剪一
18、鍵發布直播引流直播引流實時分發流量助推提升體驗提升體驗提升觀感輔助漲粉直播剪輯的方案直播剪輯的方案直播拉流直播拉流 才藝表演檢測 音效檢測 講解檢測 高能片段檢測 原唱去除 精彩打分精彩片段識別精彩片段識別 歌曲識別 自動字幕 智能配音 智能集錦 智能視頻摘要精彩片段創作精彩片段創作 質量打分 Top K 排序流量分發流量分發 秀場類 顏值類 游戲類 電商類直播智能剪輯效果展示:直播智能剪輯效果展示:游戲:秀場-跳舞:電商:秀場-唱歌直播生態中的直播生態中的AIAI語音技術語音技術本次報告主要聚焦在以下技術方向:本次報告主要聚焦在以下技術方向:直播間直播間內容理解內容理解聲學事件檢測音頻分離語
19、種識別語音識別直播智能剪輯直播間直播間內容生產內容生產智能變聲智能變聲音頻分離音頻分離音頻音頻事件檢測事件檢測語種識別語種識別語音識別語音識別直播智能剪輯直播智能剪輯文本文本精彩片段精彩片段智能變聲智能變聲 智能變聲是指用深度學習的方法替換一段語音中的說話人音色,而不改變其內容??梢詫⒙曇舭凑斩喾N形式進行再創作,比如跨性別變聲、普通話變方言、歌唱變聲等,賦能直播、短視頻、虛擬人等多個場景。VSVS智能變聲智能變聲變小姐姐變小姐姐變小哥哥變小哥哥變卡通小新變卡通小新變四川方言變四川方言音素內容提取音素內容提取b ai2 r i4 y i1 sh an1 j in4(白日依山盡白日依山盡)目標音色
20、選取目標音色選取小姐姐小姐姐/小哥哥小哥哥/方言方言語音轉換模型語音轉換模型變聲效果Ying Zhang,Hao Che,Chenxing Li,Xiaorui Wang,“One-shot Voice Conversion Based ON Speaker Aware Module”,in ICASSP 2021,6-11 June 2021,Toronto,Canada.Ying Zhang,Hao Che,Xiaorui Wang,“Non-parallel Sequence-to-Sequence Voice Conversion for Arbitrary Speakers,”in ISCSLP 2021,24-26 January,HongKong,China深度降噪網絡聲碼器變聲系統原始語音變聲后語音發音單元表征模型語音轉換模型 防抖動,實現實時變聲 多核并行端上實現 模型壓縮,動態下發節省資源智能變聲:直播場景實現端上實時變聲智能變聲:直播場景實現端上實時變聲智能變聲效果展示智能變聲效果展示智能變聲效果展示智能變聲效果展示THANKSTHANKS