《基于AI語音克隆技術構建低成本車載電臺新聞節目實踐.pdf》由會員分享,可在線閱讀,更多相關《基于AI語音克隆技術構建低成本車載電臺新聞節目實踐.pdf(21頁珍藏版)》請在三個皮匠報告上搜索。
1、嚴禁未授權復制、印刷、披露或傳播該演示文稿基于AI語音克隆技術構建低成本車載電臺新聞節目實踐2025.04.26Lidong Zeng DA數智大會 中國 上海NIO 頁腳2自我介紹曾李棟Lidong Zeng大模型算法組 助理工程師 算法開發及應用Assistant Engineer&LM Algorithm GroupAlgorithm Development and Application 用戶數字產品User Digital Product 2024校招加入蔚來語音合成、圖片生成、智能機器人NIO 頁腳3公司介紹蔚來汽成于2014年11,是端智能電動汽市場的先驅及領跑者。蔚來的使命是創
2、造愉悅的活式。蔚來旨在打造個以智能電動汽為起點的社區,與分享歡樂、共同成。愿景成為技術與體驗領先的用戶企業。產品 社區 服務 NIO 頁腳4目錄 1.業務背景 NIO Radio 蔚來電臺社區 NIO Radio 新聞&資訊節目 2.業務痛點分析 長鏈路節目制作 高人力成本 3.方案與優化 基于TTS-VC的節目制作流程 聲色采樣 優化迭代方案 4.總結與回顧 低成本、高效率 高擴展性基于AI語音克隆技術構建低成本車載電臺新聞節目實踐NIO 頁腳5NIO Radio 蔚來電臺社區NIO Radio是蔚來為用戶打造的專屬聲音社區,內容涵蓋音樂、資訊、娛樂、知識、本地生活等各大領域。用戶不僅可以收
3、獲靈感新知與愉悅陪伴,也可以參與共創、成為聲音創作者共同成長。NIO 頁腳6NIO Radio 新聞&資訊節目高更新頻率的27座城市資訊類節目:時效性高、覆蓋廣、更新快NIO 頁腳7城市資訊節目本地化+高頻更新=非常高的人力成本NIO 頁腳8城市節目制作SOP資訊節目制作存在問題:流程較長,對接、糾錯成本高。節目復用率低、成本較高。1.文稿準備2.主持人播讀3.審聽成本占比40%50%10%NIO 頁腳9解決方案新聞采集文稿生成語音生成人工審聽節目的最終生成效果決定了是否可以實現替代,通過分階段實現的方式,逐步代替傳統的節目制作流程,低風險地實現減少人力成本投入。階段一階段二 通過人工參與的方
4、式,將審聽階段拆解到 語音生成&節目制作的階段中去,減少了流程節點。NIO 頁腳低成本、高效益低成本考量聲音克隆框架(TTS-VC)少樣本訓練。少樣本訓練。低參數量。生成效果可控(語氣、發音)。生成效果可控(語氣、發音)。強模型基座。強模型基座。人工評測準確性(發音正確)流暢度(停頓連貫)自然度(與人相似)音色相似度節目制作模塊化模板化NIO 頁腳TTS語音生成框架使用基于語言模型的VC框架,可以實現快速的音色調整、情感表達。通過一定量樣本微調后,可以提高語音合成質量、大量減少領域內 badcase。在音素層面上統一多種總語言,保證中英生成的流暢性。參考音色參考文本;生成文本生成文本音素生成音
5、頻聲碼器聲學模型NIO 頁腳模塊獨立優化階段階段預處理預處理聲學模型聲學模型聲碼器聲碼器說明文本預處理G2P(Graphene2Phoneme)根據參考音頻和文本推理 音頻特征還原音頻優化方式預訓練模型+熱詞表獨立微調獨立微調優化依賴文本對應音素(Phoneme)文本&音頻-對應音頻特征(Hubert)文本&音頻特征-對應音頻效果依賴發音正確性斷句、流暢性音色相似性文本-語音端到端?半流水線方式半流水線方式:1.推理可糾錯。2.模塊間獨立優化。NIO 頁腳挑戰1生成音頻氣口解決方案合成音頻片段人聲結束階段存在不自然的呼氣、吸氣聲。氣口的形成來源于訓練數據音頻中不正確的分段,將語音起始階段的吸氣
6、聲裁剪入上一段音頻的末尾。因此結合ASR、人工標注的音頻裁剪方式,通過精確裁剪timestamps去除訓練樣本中的不自然呼吸聲。此外,結合使用場景、干音中的氣口在經過后續的混音后在車內使用場景中用戶感知較小。NIO 頁腳挑戰2固定詞匯錯讀、誤讀解決方案2.在音素層面上維護固定的詞匯發音表。1.少量(7h)標注樣本,對不正確的發音進行修正。NIO 頁腳15音色采樣不同音色特征向量差異處于版權考慮與播音音色質量要求,可通過文本描述的方式生成初步的參考音頻,再通過在特征向量微調的方式進行音色微調。對于差異相近的音色,通過使用共同基礎模型+不同特征向量的方式,可進行配置化的生成,實現低成本下的擴展性。
7、2020年4月16日NIO 頁腳16混音&節目制作通過使用工具,在模塊化語音合成流程中實現生成與審核:分段式生成。轉場特效的自動化添加。片段間的切分合成。模塊化&模板化混音:1.BGM。2.特效。3.段落拼接。NIO 頁腳17對于每一段文本,需要人工審核校對,通過人工的詞匯替換、斷句等方式實現最終質量的保證。錯讀誤讀(發音錯誤)英文單詞逐字母發音,如:正確:“App”發音p。錯誤:“App”發成a-p-p。多音字錯讀如:“銀行”讀成“yn xng”(錯誤)而非“yn hng”(正確)。專有名詞誤讀公司名、品牌名、地名等專有名詞經常出現不規范的發音。不當斷句AI無法準確識別合適的氣口位置,導致:
8、語句含義模糊。聽感生硬,不自然。方案缺陷NIO 頁腳18持續優化反饋優化鏈路初始文稿生成音頻校對優化文稿通過在生成過程中保留初始文稿、優化后最終文稿和最終生成音頻的三元組來構成新的優化樣本。12345NIO 頁腳19業務收益起步階段通過AI語音合成實現節目生產端人力釋放,實現 450/Day*city 的成本節省。借助AI生成工具、減少對專業混音成本、并使得完整節目生產時間縮短至30min內。直接收益低成本音色克隆使得新城市節目制作成本降低。間接受益模型成本 單卡A800推理支持27城市的使用需求,通過錯峰使用的方式可在后續擴展城市的場景下保留高推理效率。NIO 頁腳20總結低成本&快速實現 TTS-VCTTS-VC快速驗證快速驗證通過文本合成語音(TTS)+聲音風格轉換(VC)快速實現目標聲音效果驗證。少樣本微調少樣本微調通過50h場景樣本+7h校對后樣本微調實現高質量播音模型基座。短鏈路短鏈路 通過自動化生成&混音&節目制作流程減少制作時間。階段式實現階段式實現 通過分階段推進節目生成自動化、快速實現降本??蓴U展 場景復用場景復用 通過虛擬VC+采樣針對不同受眾群體進行音色擴充。嚴禁未授權復制、印刷、披露或傳播該演示文稿謝謝!Q&A