《搜狗-劉愷-搜狗多模態合成技術研究及應用 .pdf》由會員分享,可在線閱讀,更多相關《搜狗-劉愷-搜狗多模態合成技術研究及應用 .pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、主辦方: 搜狗多模態合成技術研究及應用 劉愷 搜狗 專家研究員 主辦方: 雅妮Demo 主辦方主辦方: “ 劉愷 中國科學技術大學本碩 2013年畢業后加入科大訊飛研究院,從事語音合成算法研究 2017年加入搜狗,目前擔任搜狗AI交互技術部多模態合成團隊負責 人,專家研究員。主要研究方向包括語音合成、語音變聲、數字音 效、多模態合成等,負責算法研發及產品落地。 ” 個人簡介 主辦方主辦方: 團隊簡介 圍繞有聲內容生成和多模態交互場景的圍繞有聲內容生成和多模態交互場景的多模態多模態合成合成技術技術 方便用戶高效的生成“高質量、高表現力“的音、視頻 機器與人的交互更加生動自然、多模態化(數字人)
2、主辦方主辦方: 摘要 本次報告主要介紹搜狗在多模態合成方面的最新研究進展,重點分享其中的語音合成、風格/口音控制合 成、多模態合成(數字人)等技術,以及在不同場景應用的代表性案例 語音合成 1. 有聲內容制作之聲咖平 臺 數字人合成2. 數字人之 AI 合成主播 主辦方主辦方: 什么是多模態? 每一種信息的來源或形式,都可以稱為一種模態,例如文本、語音、圖像等 人與人之間的交互通常是文字、語音和圖像等多種形式同時進行 多模態技術是指利用機器學習的方法,學習并建立文本、語音、圖像、視頻等多個模態之間的聯系,實 現對信息更好的理解或表達 主辦方主辦方: 多模態合成多模態合成 隨著互聯網和人工智能技
3、術發展,人機交互的發展趨勢是讓信息傳遞和機器表達更加豐富,接近真實 從單一模態生成的語音/圖像合成,走向語音、圖像、視頻等多個模態聯合生成的多模態合成 其中,數字人合成是目前比較熱門的多模態合成技術之一,輸入文本即可快速生成聲音、圖像同步的數 字人視頻,使機器具備“擬人化”的聲音和形象 文本語音/圖像視頻 主辦方主辦方: 語音合成 定義:機器將輸入的任意文字快速換成清晰自然、富有表現力的音頻 基本架構 文本分析文本聲學建模聲碼器音頻 文本特征聲學特征 文本分析得到發音、韻 律等信息(文本正則、 分詞、字轉音、韻律預 測等) 規則,詞典 ME,CRF DNN/LSTM/BiLSTM Bert/LightBert 文本特征預測聲學特征 (mcep+lf0、mel) HMM DNN/LSTM End2end 聲學特征恢復成波形 World/Straight Griffin-Lim Neural