《聯想:智能語音技術白皮書(2023版)(84頁).pdf》由會員分享,可在線閱讀,更多相關《聯想:智能語音技術白皮書(2023版)(84頁).pdf(84頁珍藏版)》請在三個皮匠報告上搜索。
1、 聯想智能語音技術 白皮書(2023 版)聯想智能語音技術白皮書 I 1 前言.1 2 智能語音技術發展背景.3 2.1 智能語音技術發展歷史.3 2.2 聯想語音技術研發布局.8 3 聯想智能語音關鍵技術.10 3.1 前端信號處理.10 3.1.1 語音活動檢測.11 3.1.2 回聲消除.13 3.1.3 噪聲抑制.14 3.1.4 波束形成.16 3.1.5 聲源定位.17 3.1.6 去混響.19 3.1.7 語音分離.21 3.2 語音喚醒.22 3.3 語音識別.26 3.3.1 混合架構語音識別系統.27 3.3.2 端到端語音識別系統.29 3.4 語音合成.35 3.5 副
2、語言語音屬性分析.39 3.5.1 聲紋識別.39 3.5.2 音頻分類.44 3.6 說話人日志.46 聯想智能語音技術白皮書 II 3.7 英語發音評估.51 4 聯想智能語音服務平臺.54 4.1 服務平臺整體架構.54 4.2 使用方法及特點.55 5 聯想智能語音產品和解決方案.57 5.1 聯想小樂語音助手.57 5.2 基于 AI Chip 的聲紋喚醒解決方案.59 5.3 聯想智能座艙語音解決方案.60 5.4 聯想智能語音客服系統.63 5.5 聯想智能會議語音識別系統.67 5.6 聯想智慧教育英語口語評估系統.72 6 智能語音技術展望.75 6.1 多模語音交互達到“類
3、人”水平.75 6.2 語音設備生態走向開放互聯.76 6.3 離線語音技術進一步提升語音產品滲透率.76 參考文獻.77 聯想智能語音技術白皮書 1 1 前言 語音是指人類通過發音系統,包括肺部、氣管、喉部聲門和聲帶、咽腔、口腔、鼻腔等,發出的在空氣中傳播的、具有一定意義的聲音,是語言的聲音形式,是人人交流中最主要的信息載體。另外,通過讓機器能聽會說,語音也成為人機交互的重要入口。語音技術一般包括傳輸、存儲、識別、合成、增強等方面,智能語音技術的研發主要聚焦于語音的識別理解、合成輸出和聲音增強。隨著信息技術的發展,智能語音技術已經成為人們信息獲取和溝通最便捷、最有效的手段1。對智能語音技術的
4、研究可追溯到上個世紀 50 年代,在經歷了萌芽期、起步期、變革期后,目前正在進入發展高峰期。由智能語音技術驅動的語音用戶界面已成為鍵盤鼠標、觸摸之后的新一代人機交互界面。語音識別技術更是被認為已具備較高的成熟度水平,隨著 PC、平板、手機、IOT 等設備走入了千家萬戶,消費者對其依賴程度越來越高,同時還為不同行業提供語音轉文字的基本通用能力,如在智慧客服、智慧教育等垂直領域。技術進步也帶來了智能語音市場規模的快速增長,德勤報告顯示,預計 2030 年消費級應用場景將超過 700 億元,企業級應用場景在疫情的催化下也將加速發展,預計會達到千億規模2。聯想結合自身在智能設備以及教育、服務等領域的優
5、勢,布局智能語音技術的研發,推進產品落地。聯想是首家實現手機超低功耗全時語音識別系統量產的廠商,采用自有 IP 的聲紋和喚醒技術,實現了全球首款支持在關機和待機狀態下通過聲紋喚醒的 PC 產品。在人工智能領域為行業發展做出了諸多突破性和引領性的貢獻。本白皮書通過回顧智能語音技術發展歷程,闡述聯想在智能語音領域的研發布局和思考,帶領讀者了解聯想深耕語音核心技術所取得的突破,以及基于自研核心技術搭建智能語音服務平臺,并介紹聯想在自研語音平臺支撐下結合自身優勢在語音產品和應用上的實踐案例,最后展望聯想智能語音技術白皮書 2 未來發展趨勢。聯想智能語音技術白皮書 3 2 智能語音技術發展背景 2.12
6、.1 智能語音技術智能語音技術發展發展歷史歷史 對語音技術的研究可追溯至上世紀 50 年代。受限于計算機能力和信號處理技術水平,早期學者們對語音技術的研究主要聚焦在聲學語音學方面,開發的識別系統可用來識別通過模擬裝置產生的在頻譜上具有共振峰特性的不同元音。1952 年貝爾實驗室研發出第一個特定人數字識別系統 Audery,該系統可以識別英文發音的 10 個阿拉伯數字 09,對熟人發音的識別準確率達到 90%以上,對陌生人則偏低。1962 年 IBM 推出 Shoebox 系統,可以識別和理解 16 個英文單詞,以及對 10 個數字進行加減運算的語音指令。1972 年,CMU 發布了針對孤立詞語
7、以及簡單句式的語音識別系統 Harpy,該系統能夠識別 1011 個單詞,使大詞匯量、孤立詞識別取得突破性進展。同期語音端點檢測的概念和方法也被提出,進一步提升了語音識別的能力。隨著線性預測編碼和動態規劃技術的發展,語音信號建模問題和時序匹配問題得到了更好的解決,建模思路也開始從傳統的基于模板匹配的方法發展為基于概率統計的方法,從而將語音識別從孤立詞識別階段推進到連續語音識別階段。進入二十世紀 80 年代,隱馬爾可夫模型(HMM,Hidden Markov Model)被用來建模短時平穩的語音信號的動態特性,解決連續語音識別問題。1988 年第一個非特定人、大詞匯量、連續語音識別系統 SPHI
8、NX 問世,可支持近 1000 個詞匯。進入 90 年代,GMM-HMM(GMM,Gaussian Mixture Model)成為語音識別的主流框架,語音識別水平也在逐漸提升,實現了超過上萬詞匯量的大詞表連續語音識別系統(LVCSR,Large Vocabulary Continuous Speech Recognition)。然而,受限于訓練語料規模、模型建模能力以及計算機水平,這一時期技術水平只能支持簡單的產品形態,未達到支持大規模商用的成熟度。2006 年基于深度學習理論的建模方法在機器學習任務被成功應用。深度神經網絡(DNN,Deep Neural Network)通過多層非線性結構
9、將輸入特征轉換為更加抽象的高層表示,具有更強聯想智能語音技術白皮書 4 的特征表達能力和建模能力。2009 年 DNN 成功取代 GMM 對語音信號進行特征變換和狀態預測,DNN-HMM 的混合框架也成為語音識別的主力架構,將語音識別性能相對提升 30%,取得突破性進展。隨后語音識別技術更加快速地發展起來,卷積神經網絡(CNN,Convolutional Neural Network)被用來提取更精細和更魯邦的特征表示,長短時記憶網絡(LSTM,Long-short Term Memory)用于建模長時時序動態相關性,說話人自適應聲學模型和鑒別性訓練等技術都使得系統性能持續提升。到 2017
10、年微軟公布 Switchboard 任務錯誤率達到 5.1%,與人類識別水平相當。DNN 除在語音識別領域取得成功外,也為其他語音處理技術帶來了突破,如聲紋識別、語種識別、音頻分類等都可以利用深度神經網絡的特征表達能力將不定長的幀級輸入轉為固定維度的深度嵌入向量特征(Deep Embedding),再針對目標任務進行分類和判別。這些分析語音中除語義內容以外其他信息的任務被統稱為副語言語音屬性識別,可以采用統一的 Deep Embedding 框架,相比傳統的統計建模方法有顯著優勢。技術瓶頸的突破為智能語音行業帶來了快速迭代升級,HMM-Hybrid 框架已經在很多語音產品和行業中落地商用。近年
11、來端到端語音識別系統(End-to-end ASR)快速發展起來。端到端的語音識別框架直接建立語音和輸出的字母或音素之間的映射關系,將聲學模型、語言模型和發音模型以統一的目標容納到一個整體中,與傳統 Hybrid 框架相比簡化了建模過程。目前主流的端到端模型主要包括CTC(Connectionist Temporal Classification)、RNN-Transducer以及基于注意力機制的LAS(Listen,Attend and Spell)等。單從語音識別的性能來看,End-to-end ASR 已經逐漸趕超 Hybrid 框架,表現出更強的魯棒性。相信隨著在實際復雜場景的應用中不
12、斷進行打磨,端到端語音識別系統的應用成熟度會越來越高,并進一步推動語音產業的發展。語音識別是讓機器聽懂人說話,而語音合成是為了讓機器更準確、更自然地表達。語音合成的歷史可以追溯到 17 世紀法國人研發的機械式說話裝置。在 19 世紀開始研究電子語音合成技術,語音合成技術得到了飛速發展。1939 年貝爾實驗室利用共振峰原理制作出第一個電子式語聯想智能語音技術白皮書 5 音合成器 VODER0,1960 年瑞典語言學家 G.Fant 闡述了語音產生的理論,極大地推動了語音合成技術的發展。1980 年 E.Moulines 和 F.Charpentier 提出了 PSOLA(Pitch Synchr
13、onous Overlap Add)3 算法,使得合成語音更加自然。19 世紀 90 年代,語音合成商用系統還是以單元挑選與波形拼接的方法為主,基于大語料庫,從預先錄制和標注好的音頻庫中選擇合適的語音片段進行拼接,得到最終合成的聲音4。這種方法可以保持較高的語音質量,但無法保證領域外文本的合成效果,并且很難在移動設備上離線部署。20 世紀末,基于統計建模和機器學習的語音合成技術被提出。語音合成的技術框架在此時已基本形成,由文本前端、聲學模型、聲碼器三部分組成。文本前端負責將輸入的待合成文本轉換成較為復雜的語言學特征;聲學模型負責將語言學特征映射為聲學參數特征;聲碼器負責將聲學參數特征重建為最終
14、的時域波形。這種方法可以利用較少的語音數據快速地構建出語音合成系統,且不受語料庫限制,支持離線部署和嵌入式設備等多樣化語音合成的需求。但該方法所需的語言學特征較為復雜,且由于生成的聲學特征參數過于平滑等問題,合成語音的自然度仍然有待提升。進入 21 世紀,隨著深度學習的飛速發展,基于統計建模的語音合成技術逐漸被深度神經網絡所取代?;谏疃葘W習的語音合成技術將聲學模型輸入所需的復雜語言學特征簡化為包含韻律信息的拼音/音素序列,甚至可以直接將文本作為輸入。得益于深度神經網絡強大的建模能力,語音合成的質量和自然度有了大幅提升,有些情況下甚至難以分辨是合成語音還是真實語音。在人機交互中,除了語音識別和
15、語音合成,為了讓機器“聽清”復雜場景下的語音信號,前端信號處理技術也是非常重要的部分。前端信號處理就是利用數字信號處理技術對語音信號進行一系列處理,以實現存儲、傳輸,增強等目的。根據要解決的問題,可以分為多個方向,包括語音活動檢測、回聲消除、噪聲抑制、波束形成、聲源定位、去混響和語音分離等。上個世紀,聯想智能語音技術白皮書 6 隨著數字信號處理技術的發展,語音前端信號處理的各個方向都有相應的經典算法提出。語音活動檢測最早的方法是基于語音能量,后續又有各種效果更好的特征被提出,一些經典的算法也被國際標準所采用,例如國際電信聯盟電信標準分局(International Telecommunicat
16、ion Union,ITU-T)的 G.729B、第三代合作伙伴計劃(The Third Generation Partner Project,3GPP)的自適應多速率編碼(Adaptive Multi-Rate,AMR)等。這些方法通過提取特征,并與閾值比較來實現語音或非語音的判斷。由于在復雜噪聲環境下,這些方法可能性能會下降,有研究提出基于隱馬爾可夫模型(Hidden Markov Model,HMM)的方法。近些年來,神經網絡在語音活動檢測發現得到廣泛應用,獲得了優異的性能,同時具有良好的噪聲魯棒性。由于早期電話應用使用低延時的模擬技術并且通訊距離普遍較短,回聲消除問題在當時并不明顯。2
17、0 世紀中葉以后,由于衛星系統發展,需要解決遇到的回聲消除問題。一種方法是使用切換的方式來隔斷回音信號,這種方法雖然有效,但會導致交談不自然。上個世紀六十年代以前,普遍采用一種叫回聲抑制器的方法來實現回聲消除,其原理是對回聲進行一定程度衰減從而提高通信質量,但是只適用于時間延遲很小的場景。而隨著衛星通信和 IP 電話的發展,傳輸時延有可能超過 100-300ms,回聲抑制器在這種情況下不再有效,因此需要對回聲消除技術進行更多的研究。在眾多方法中,基于自適應濾波器的回聲消除技術表現良好,逐漸成為主流方向。20 世紀 80 年代以來,國際電聯 ITU 先后制定了消除線路回聲的 G165(Echo
18、Canceller),消除音頻終端回聲的 G167(Acoustic Echo Canceller)及消除數字網絡回波的 G 168(Digital Network Echo Canceller)等國際標準。近些年,基于神經網絡的回聲消除方法不斷被提出,獲得了優于傳統方法的性能。噪聲抑制的研究始于 20 世紀 70 年代。1978 年,Lim 和 Oppenheim 提出了基于維納濾波的方法。1979 年,Boll 提出了譜減法來抑制噪聲。1980 年,Maulay 和 Malpass 提出了軟判決噪聲抑制的方法。1984 年,Ephraim 和 Malah 提出了基于 MMSE 短時譜幅度估
19、計的方法。1987 年,聯想智能語音技術白皮書 7 Paliwal 把卡爾曼濾波引入到語音增強領域。在多年的研究中,越來越多的方法不斷被提出。近些年,基于神經網絡的方法能夠實現對穩態和非穩態噪聲很好的抑制,同時能夠做到對語音的失真影響極小。波束形成最基本的方法是延遲求和技術。1969 年,Capon 提出了最小方差無失真響應(Minimum Variance Distortionless Response,MVDR)波束形成算法,是目前應用廣泛的自適應波束形成方法之一。1972 年,Frost 提出了線性約束最小方差(Linearly Constrained Minimum Variance,
20、LCMV)波束形成器,它實際上是 MVDR 的擴展。1982 年 Griffiths 提出了廣義旁瓣相消器,避免了 LCMV 推導過程中的約束條件。神經網絡技術近年來也被應用于波束形成中,通過神經,實現對信號統計量更準確的估計,從而獲得更好的性能。聲源定位的常用算法是 1976 年 Knapp 提出了廣義互相關方法,利用聲音時間差和陣列的幾何結構計算聲源方位。1979 年 Schmidt 等人提出了多重信號分類方法,對方位的估計具有很高的分辨率,同時對麥克風陣列的陣型沒有要求。此外也有學者提出了可控波束響應的方法,基于不同方向上的波束形成后的功率譜實現定位。波束形成方法也可用于去混響,但目前常
21、用的方法主要是基于逆濾波的方法。2010 年Nakatani 提出的加權預測誤差算法,能夠實現良好的去混響效果。而后的研究借助神經網絡對其進行改進,通過神經網絡更準確地估計信號統計量,實現了更好的效果。除了通過神經網絡估計信號統計量,也有越來越多的研究嘗試直接從混響語音中估計直達語音來實現去混響。語音分離的經典方法是獨立成分分析,在此基礎上,又發展出多種新方法,例如獨立向量分析等。近些年,基于神經網絡的語音分離方法的性能能夠很好地將多個說話人的語音分離開來,而通過引入說話人的信息,能夠實現針對特定用戶的語音分離,效果進一步得到提升。隨著多年的發展,不斷有新的前端信號處理技術被提出,這些技術將不
22、斷為語音系統中的后續模塊,例如語音識別、語音通信等提供越來越好的使用體驗。聯想智能語音技術白皮書 8 2.22.2 聯想聯想語音語音技術技術研發研發布局布局 聯想集團自 2011 年開始投入語音研發,目前已涵蓋聲學前端、語音識別、語音合成、聲紋識別、音頻分類、語音評測等方向的全棧技術,支持聯想產品和應用。圖 2-1 聯想語音技術研發歷程 2013 年聯想發布并開始運營支持引擎自由插拔的第一代自適應語音平臺,通過平臺輸出語音能力支持各類設備上的語音應用,如 PC 照片大師(PhotoMaster)的語音搜索。憑借設備端優勢,聯想語音也為行業發展做出了諸多突破性和引領性的貢獻。2014 年成為率先
23、發布“One-shot Touchless”免觸語音撥號和接聽功能的中國公司。2015 年聯想手機語音助手樂語音入駐軟件商店,成為當時國內為數不多、支持語音助手自由下載的手機廠商。同時,隨著 DNN-HMM 混合語音識別框架性能的不斷進步,聯想的語音平臺也快速切換到自研的基于深度學習的語音識別引擎上。2017 年開始啟動第二代語音平臺,基于聯想自研核心技術輸出語音識別、語音合成等SaaS 服務,并實現語音識別全場景覆蓋,包括短語音識別、長語音識別、電話語音識別等功能,應用于聯想中國區出貨的所有品牌手機上的預裝語音助手。除了近場語音識別,為了在 IOT 場景打造更優秀的用戶體驗,聯想研究院還發力
24、遠場語音識別的研發。2019 年在 Interspeech VOiCES國際遠場語音識別比賽固定系統項目中,聯想遠場語音識別系統獲得國際第二名。目前聯想自研語音平臺已全線賦能聯想的智能設備,包括 PC、平板、手機和 IOT 設備等。除了在設備端的應用,聯想智能語音平臺也為不同行業在垂直領域提供語音能力和服務。在聯想智能語音技術白皮書 9 智慧教育領域,聯想開發了自研的英語口語發音評測引擎,將其應用于智慧教育解決方案中的英語聽說模擬考試訓練,即在英語聽說教室系統中幫助學生進行英語口語的??己途毩?。在智能客服領域,基于自研語音識別、語音合成、聲紋識別、語義理解等核心引擎構建了聯想電話語音識別系統,
25、打造從基礎硬件設施層、算法層、產品層到應用層的端到端智能客服解決方案,實現了智能質檢、智能 IVR 和智能外呼等應用,大大減少了人工工作量,為聯想內部和外部企業的客服中心進行智能化轉型賦能。在車載應用場景,聯想憑借自身強大的高性能計算優勢發力車計算業務,實現了智能座艙中的語音交互解決方案??傮w而言,聯想智能語音技術研發布局如圖 2-2 所示,包括核心技術引擎層、平臺層和應用層,結合自身硬件和設備優勢,打造了從底層硬件到核心技術算法,再到上層產品和應用,從技術到用戶的全鏈覆蓋型企業生態,以用戶為中心,提供先進的、差異化的產品和服務。同時,2018 年三方機構報告顯示,聯想在語音&自然語言處理領域
26、專利數量世界排名第 19 名、中國排名第 3 名5;2019 年國家工業信息安全發展研究中心“人工智能中國專利技術分析報告”顯示,聯想語音識別領域專利申請量中國排名第 6 名。圖 2-2 聯想語音技術研發布局 聯想智能語音技術白皮書 10 3 聯想智能語音關鍵技術 本章節將介紹聯想在智能語音關鍵技術研發上取得的進展和突破。按語音的應用場景可以將智能語音技術分為人機交互和人人交流兩大類。在人機交互方面的應用主要是為了讓機器更好地聽懂、理解和表達,涉及語音聲學前端信號處理、語音識別、說話人識別、語義理解和對話管理,以及語音合成等方面的技術;在人人交流方面主要是人與人自然交談的“泛會議”場景的應用,
27、例如智能會議、客服質檢、智慧醫療等,聲學前端處理的目標一方面是獲得更準確的識別和分析結果,另一方面是提高人人通話的語音質量。聯想在語音核心技術上進行全棧布局,包括聲學前端、語音喚醒、語音識別、語音合成、副語言語音屬性識別、說話人日志、發音評測等幾大方向,單點技術的算法性能在眾多國際評測中取得了優異成績,處于國際前列的水平;同時在推進核心算法落地方面,聯想依托設備和行業解決方案上的優勢,通過多技術組合打造自研的語音技術解決方案。3.13.1 前端信號處理前端信號處理 在日常生活場景中,語音信號常常會受到各種環境因素的影響,如噪聲、回聲、干擾人聲以及混響等,從而造成語音通信質量變差,語音識別系統的
28、使用體驗不佳。語音前端處理技術能夠圖 3-1 聯想語音核心技術模塊組成 聯想智能語音技術白皮書 11 有效地降低這些不利因素對語音的影響,保障用戶使用體驗。圖 3-2 描述了語音前端信號處理技術所要解決的幾個關鍵問題:回聲、噪音、混響和干擾源?;芈暿侵甘耙粼O備在拾取目標說話人的聲音時,還拾取了揚聲器播放的聲音,導致遠端說話人會聽到自己的說話聲。噪聲在環境中普遍存在,包括穩態噪聲(如空調噪聲)和非穩態噪聲(如鍵盤聲、敲門聲)?;祉懯怯捎谡f話人的信號除了會通過直達路徑傳播到拾音設備,還會被墻壁等物體表面經過多次反射后再被拾取,較大的混響會對通話質量和語音識別產生一定的影響。干擾源是指來自非目標說話
29、人方向上的語音或噪音。解決這些問題對應的語音前端處理技術主要包括語音活動檢測、回聲消除、噪聲抑制、波束形成、聲源定位、去混響、語音分離等。圖 3-2 語音前端信號處理技術要解決的關鍵問題 3.1.1 語音活動檢測 語音活動檢測(VAD,Voice Activity Detection,or SAD,Speech Activity Detection)用于從音頻信號中檢測出有效語音片段的起始時間和結束時間。這一技術常常應用于通話系統和語音識別系統,可以減少系統傳輸數據量和運算負擔,尤其當作為語音識別任務的前置模塊時,VAD給出的準確時間信息可以有效提升語音識別準確率。聯想智能語音技術白皮書 12
30、 VAD 的基本流程如圖 3-3 所示:圖 3-3 語音端點檢測實現方法 首先聲音信號通過特征提取模塊得到語音特征,提取的特征可以分為時域特征和頻域特征。時域特征包括短時能量、短時過零率、最大能量、最小能量等,頻域特征包括頻譜、基頻、譜熵、倒譜等。然后通過判決準則,判定特征對應的音頻段屬于語音還是非語音。判決準則可以分為三類,分別是基于門限、基于統計模型和基于深度學習的方法。-基于門限的方法:通過對數據特性實時分析,動態地調整閾值,并將特征與閾值對比來實現判決。例如特征為短時能量時,能量大于閾值的音頻段即被認為是語音段。-基于統計模型的方法:通常假設語音和非語音各自滿足獨立的分布,將特征用概率
31、密度函數來描述,從而獲得似然比,將似然比與預設的閾值對比實現判決。-基于深度學習的方法:預先用大量標注數據訓練好神經網絡,基于神經網絡模型預測某幀特征屬于語音或非語音類別的概率,將概率與閾值對比實現判決。得到的判決結果可能存在一些突變,可以采用一些方法進行平滑。常用的有 HMM、狀態機、中值濾波等。早期的 VAD 多為基于門限的方法,這種方法簡單快速,在信噪比較高時能夠獲得較好的效果,而在低信噪比時性能有所下降,這時基于統計模型的方法能夠獲得更準確的結果。隨著深度學習的發展,不同類型的神經網絡結構被應用到 VAD 模塊中,從基本的 CNN、MLP(Multilayer Perceptron)到
32、 LSTM、ResNet-LSTM(Residual Network-LSTM)、U-Net 等,VAD 準確率得到聯想智能語音技術白皮書 13 了不斷提升,在低信噪比時也能有很好的表現。聯想目前采用的 VAD 方案是一套融合方案,適配不同的需求和應用場景。對于計算資源有限且要求低延遲的場景,我們采用全卷積的網絡結構,特征采用 MFCC(Mel-frequency Cepstral Coefficients)以降低輸入層維度,從而降低計算量和功耗;對于聲學環境特別惡劣、同時對精度有高要求的場景,我們采用了基于 U-Net 的網絡結構,特征采用頻譜,同時在訓練階段輔以SpecAugment6 等
33、數據增強技術,獲得了良好的性能。這套方案在 2021 年 Interspeech Fearless Steps Challenge Phase III 挑戰賽中 SAD 賽道獲得了第二名7。3.1.2 回聲消除 回聲消除(AEC,Acoustic Echo Cancellation)的常用場景是兩位用戶在通話時,遠端用戶的語音通過遠端麥克風拾取并傳送給近端用戶,近端的揚聲器播放后又被近端麥克風拾取并回傳給遠端,為了避免遠端用戶聽到自己的語音,就要對近端麥克風拾取到的聲音進行回聲消除。AEC 的基本思想是聯合自適應濾波處理和回聲后處理,基本原理如圖 3-4 所示:圖 3-4 回聲消除實現方法 A
34、EC 主要包含以下模塊:時延估計:揚聲器播放的參考信號,經過傳播后稱為回聲,與說話人的語音一起被麥克風拾取作為輸入信號。輸入信號中的回聲與原始信號之間存在一定的時間差,需要估計二者的時延來進行對齊以便于后續的處理。時延估計模塊一般可采用互相關算法。聯想智能語音技術白皮書 14 線性回聲消除:通過估計自適應濾波器系數,對參考信號進行濾波,以模擬回聲,再從輸入信號中減去模擬的回聲,只保留說話人的語音。這一步中,應當盡可能使模擬的回聲與真實的回聲接近,同時要保護說話人的語音不受到損傷。雙講檢測:通話時,濾波器系數一般需要根據實際聲學環境來不斷更新。當近端和遠端同時說話,這種情況被稱為雙講。此時近端的
35、語音會導致濾波器系數估計不準確甚至不收斂,因此需要雙講檢測技術。當檢測到雙講存在時,就固定濾波器的參數不更新,避免濾波器系數的發散。殘余回聲抑制:由于實際場景中回聲與參考信號之間的關系并非線性,因此在應用線性回聲消除后,可能依然殘留了一定的回聲,此時就需要應用非線性處理技術進一步抑制,以獲得更好的效果??紤]到算法速度和計算量等因素,聯想采用的回聲消除方案基本流程如圖 3-5 所示:圖 3-5 聯想 AEC 算法流程圖 我們采用了 GCC-PHAT(Generalized Cross Correlation Phase Transformation)方法計算時延,延時信息體現在互功率譜的相位上,
36、與幅度無關,具有較好的魯棒性。之后采用了 PBFDAF(Partitioned Block Frequency Domain Adaptive Filter)方法進行線性回聲消除,這里又分為濾波狀態和濾波器系數更新狀態兩步。最后計算參考信號和麥克風信號的相關系數,以及麥克風信號和殘差信號的相關系數,經過若干判斷計算得到增益因子 G,與信號相乘得到殘余回聲抑制后的信號。該方法運算速度快、計算量小,能夠獲得較好的性能,適合在設備端應用。3.1.3 噪聲抑制 人類生活環境中處處存在噪聲,在很多情況下會產生不良影響,例如使通話體驗變差、語音聯想智能語音技術白皮書 15 識別準確率下降等。目前業內主流的
37、噪聲抑制方法主要分為以下幾類:譜減法:假設噪聲為加性噪聲且噪聲變化是平穩的,可以通過從帶噪語音的頻譜中估計噪聲譜、并將其從信號中減去,從而達到降噪的目的。維納濾波:是對帶噪語音進行濾波的思路,基于最小均方誤差準則,最小化濾波后的語音與純凈語音之間的均方誤差,然后推導出最優濾波器對信號進行濾波實現降噪效果?;诮y計模型的方法:假設語音和噪聲是統計獨立且服從特定分布,基于統計估計的框架對觀測信號進行推導,得到統計模型參數的非線性估計器,從而得到帶噪語音頻譜的增益系數來實現降噪。子空間方法:子空間方法基于線性代數理論,將純凈信號視為帶噪信號歐式空間中的一個子空間,通過將帶噪信號向量空間分解為分別由純
38、凈語音主導和噪聲信號主導的兩個子空間,然后將噪聲子空間的分量去除來實現降噪。隨著深度學習的發展,神經網絡在噪聲抑制領域中得到了廣泛的應用,通過對純凈語音疊加噪聲獲取訓練數據,訓練得到的降噪模型對于穩態和非穩態噪聲都具有很好的降噪性能。一些研究直接學習帶噪語音幅度譜到純凈語音幅度譜之間的映射關系,也有研究將頻譜掩蔽作為學習目標。已有越來越多的模型結構、損失函數等被提出,降噪性能也在不斷改善。聯想在噪聲抑制方面采用了聯合方案,對于只含有穩態噪聲(例如空調聲)的場景,我們采用基于維納濾波的方案,基本流程如圖 3-6 所示:這種方案計算量小、速度快,對穩態噪聲有良好的抑制效果。而對于既有穩態噪聲又有非
39、穩態噪聲(例如咳嗽聲、拍手聲、鍵盤聲等)的復雜場景,我們采用基于神經網絡的端到端方案,圖 3-6 聯想噪聲抑制算法流程圖 聯想智能語音技術白皮書 16 其訓練和降噪的基本流程如圖 3-7 所示:圖 3-7 聯想 AI 噪聲抑制算法流程圖 目前聯想語音降噪模塊主要基于 DCCRN8的模型結構進行優化,該模型對眾多非平穩噪聲都能夠實現較好的降噪效果。3.1.4 波束形成 麥克風在拾音時,除了會采集到來自目標說話人方向處的語音,還有可能采集到來自其他方向的非目標說話人語音或噪音,此時利用空域信息的麥克風陣列波束形成技術能夠獲得相比于單通道算法更好的降噪性能。波束形成的基本原理如圖 3-8 所示:圖
40、3-8 波束形成原理 聲音以波的形式傳播,遠場語音傳播到麥克風陣列處時可以將其視為平面波,各麥克風錄制到的聲音之間會存在一定差異。波束形成可以分解為兩個子過程,首先將每個麥克風錄制的聲音聯想智能語音技術白皮書 17 延遲或提前一段時間,使每個聲音中的目標語音信號成分在時間上對齊,之后將對齊的信號進行加權求和。根據加權系數確定方式的不同,波束形成可以分為固定波束形成和自適應波束形成兩大類。固定波束形成的加權系數由預先確定的陣列陣型和波束方向所決定,信號的改變對波束計算過程沒有影響。自適應波束形成是根據信號和噪聲的特性,自適應地估計最優的加權系數。近年來,機器學習與波束形成技術相結合,進一步提高了
41、波束形成的性能。CGMM-MVDR方法通過 CGMM 估計得到帶噪語音中的時頻掩蔽,提高了對移動聲源的跟蹤能力和降噪能力。NN-GEV 方法使用神經網絡估計帶噪語音中的時頻掩蔽,實現了對功率譜和導向矢量的估計,進一步提高了性能。聯想語音采用的波束形成方案是基于 CGMM-MVDR 9的技術來實現的,基本流程如圖 3-9所示。圖 3-9 聯想波束形成算法流程圖 CGMM-MVDR 的基本思想是使用 CGMM 分別估計帶噪語音中的語音和噪聲的時頻掩蔽,進而計算得到語音和噪音的功率譜和協方差矩陣,通過對協方差矩陣應用特征值分解,將最大特征值對應的特征向量作為導向矢量的估計,最后應用 MVDR 實現降
42、噪。該方案不受麥克風陣列的陣型和麥克風數量的限制,能夠方便地部署到各種設備上;同時在嘈雜的環境中,能夠獲得良好的降噪性能,提高 ASR 的識別準確率;此外得益于 CGMM 的無監督性,該方案對于各種噪聲場景都具有一定普適性,表現出較好的魯棒性。3.1.5 聲源定位 聲源定位技術通過對麥克風陣列采集到的信號進行分析從而得到聲源相對于麥克風陣列的方向,主要分為以下幾類:1.基于廣義互相關(GCC,Generalized Cross Correlation)的方法 聯想智能語音技術白皮書 18 這種方法的基本思想是計算兩個麥克風信號之間的廣義互相關,從而得到聲波傳播到兩個麥克風之間的時間差,再根據陣
43、型的幾何結構計算出聲波與麥克風陣列所在平面的夾角實現定位。這種方法簡單快速,實時性好,但在噪聲和混響的環境下性能會受到一定影響。2.基于可控波束響應(SRP,Steered-Response Power)的方法 這種方法的基本思想是對麥克風陣列的接收信號在所有的觀測方位進行延遲求和的波束形成,即將各通道信號根據直達聲波傳遞信號路徑的差距進行時延,得到一個單通道的增強信號,然后分別求得功率。在多個觀測角度上進行遍歷,找到能量最大的增強信號,其對應的觀測方位就是估計的聲源方位。為了使 SRP 算法對環境混響有更好的魯棒性,相位加權變換(PHAT,Phase Transform)被用來進行頻域幅值的
44、歸一化操作,僅保留相位信息,從而弱化了無關峰值,對噪聲和混響的靈敏度降低,進一步提高了魯棒性和定位的精準度。3.基于多重信號分類(MUSIC,MUltiple SIgnal Classification)的方法 和 SRP 的設計思路不同,MUSIC 聲源定位算法從矩陣分解的角度,將接收信號看成干凈語音信號的線性變換和噪聲信號的疊加。通過對混合信號的協方差矩陣進行奇異值分解,可以得到信號子空間和噪聲子空間。MUSIC 算法使用噪聲子空間和各方向的導向矢量構建一個空間譜,遍歷空間譜的各點位置,求取峰值所在方位,即為聲源對應的方位。MUSIC 算法的主要優點是可以突破麥克風間距的限制,且可以對多個
45、聲源進行定位。聯想實現的設備端基于麥克風陣列的聲源定位功能主要是針對會議場景,采用了基于 SRP-PHAT 的聲源定位算法,針對輸出穩定性和混響環境下的魯棒性進行優化迭代,在 3m 遠場拾音條件下定位準確度的平均誤差在 5 度以內,該方案對單一聲源具有更好的通用性和更低的計算量。聯想智能語音技術白皮書 19 3.1.6 去混響 在室內錄音時,聲波不僅會沿直線路徑傳播到麥克風,還會經過墻壁和其他表面的多次反射進行傳播,最終直達聲和反射聲都被麥克風所錄制,這些通過反射傳播到麥克風處的聲音被稱為混響。其中,直達聲能量最大,反射聲能量在傳播過程中被空氣和反射材料吸收而逐漸減小,一般將聲源停止發聲后聲壓
46、級減少 60dB 所需要的時間定義為混響時間。對于聽感來說,適度混響時間能夠提升聽感,過短的混響時間會導致聲音聽起來發干,而過長則會導致聲音聽起來含混不清。根據到達麥克風時間的早晚,可以將混響分為早期混響(晚于直達聲 10-50ms)和晚期混響(晚于直達聲 50ms 以上),晚期混響會降低 ASR 系統的性能,因此需要對晚期混響進行抑制。目前的去混響方法主要分為以下幾類:1.基于波束形成的方法 這種方法通過設計指向目標說話人方向的波束,抑制來自其他方向的聲音,從而實現對混響的抑制。2.基于逆濾波的方法 混響的產生可以建模成由原始語音和房間脈沖響應(RIR)卷積得到,從而可以用矩陣乘法來表示。通
47、過計算卷積矩陣的逆矩陣,從而實現去混響。但實際情況中,由于 RIR 是未知的,卷積矩陣也就無法獲取。針對這個問題,有兩種盲逆濾波的方法:一種方法是先進行盲 RIR 估計再逆濾波。然而盲 RIR 估計到目前為止尚未有一個令人滿意的解決方案,因此這種方法去混響的性能有限。另一種方法是直接估計逆濾波器,研究表明,基于多通道線性預測(MCLP)思想的盲逆濾波能夠實現較好的去混響效果。MCLP 的基本思想是將當前時刻的信號建模成過去時刻的信號的線性預測與直達信號的和,通過估計線性預測矩陣,可以從當前時刻的信號中減去過去時刻的信號的線性預測實現去混響??紤]到實際語音的特性,有研究提出了加權預測誤差(WPE
48、,Weighted Prediction Error)10方法,在 MCLP 的基礎上引入了預測延遲,并將語音建模為時變聯想智能語音技術白皮書 20 高斯分布(TVG,Time-Varying Gaussian),用過去時刻的信號估計當前時刻信號中的晚期混響并減去,實現了較好的去混響性能,這一方法在很多去混響方案中得到了廣泛的應用??紤]到WPE 在計算中需要多次迭代估計信號統計量,有研究提出了使用神經網絡估計代替 WPE 中的迭代估計,進一步提高了 WPE 的速度和性能11。3.基于神經網絡的方法 近些年來,完全基于神經網絡的去混響方法也有了快速的發展。這類方法的基本思想是通過神經網絡學習從混
49、響語音的頻譜到無混響語音或只含早期混響的語音的時頻掩蔽或頻譜的映射關系?;谶@樣的思想,在輸入特征、網絡結構、損失函數等方向有了越來越多廣泛且深入的研究,這些研究中提出的改進都獲得了更好的去混響性能。聯想語音解決方案中去混響模塊是基于 WPE 的方法,通過對設備在各種實際環境下的進行性能調校,實現了更加穩定、魯棒的去混響效果,實現流程如圖 3-10 所示:圖 3-10 聯想語音去混響算法流程圖 混響語音提取頻譜特征后,首先估計功率譜,更新濾波器,得到晚期混響的估計,之后對晚期混響進行抑制,再進行時頻反變換得到去混響語音。后續功率譜通過去混響后的頻譜進行更新。WPE 方法對語音失真小,在混響環境
50、下能夠有效提高 ASR 系統的識別準確率。聯想智能語音技術白皮書 21 3.1.7 語音分離 在嘈雜的室內,不同人的說話聲,噪音,音樂聲,以及混響等同時存在,人能夠從這些混合的聲音中聽懂所關注的內容,這就是語音信號處理領域中著名的“雞尾酒會”問題。語音分離技術就是圍繞這一問題而發展的。語音分離方法常用的有以下幾類:1.基于獨立成分分析(ICA,Independent Component Analysis)的方法 假設各個聲源之間相互獨立且服從非高斯分布,且源自各聲源的聲音是線性瞬時混合的,ICA 通過利用信號的統計獨立性實現各聲源的分離,例如可以對混合信號做變換,使其非高斯性達到極大,則每個局
51、部極大值對應一個獨立成分。常用的非高斯性度量有峭度和負熵。實際情況中,由于語音是寬帶信號,且各種聲音之間不再是線性瞬時混合,而是有時間延遲的卷積混合,因此常常會在頻域上各頻點應用 ICA 分離??紤]到分離后的結果會存在不同時間分離得到的各聲源的成分排列順序不一致的問題,有研究對 ICA 進行了擴展,提出獨立向量分析(IVA,Independent Vector Analysis)方法,將所有頻率成分建模為隨機向量變量并同時進行處理,避免了排列問題。通過引入輔助函數,IVA 可以擴展為 AuxIVA 方法,能夠進一步提高收斂速度和分離性能。此外,IVA 也可擴展為 OverIVA 方法,以實現麥
52、克風數量大于聲源數的情況時的分離。2.基于深度學習的方法 近些年來,基于深度學習的語音分離方法發展迅速。早期大多數方法與基于深度學習的噪聲抑制方法類似,通過短時傅里葉變換將時域信號變換到頻域信號,用神經網絡從混合語音的幅度譜中估計各個聲源的幅度譜或時頻掩蔽。針對分離結果中存在的“置換問題”,有研究提出了深度聚類方法(Deep Clustering),使用基于親和力的目標函數來保證說話人的順序不變,也有研究提出了“置換不變訓練”(PIT,Permutation Invariant Training)來解決這一問題。不同于在頻域上的實現語音分離,最近越來越多的研究提出了基于時域的端到端解決方案。聯
53、想智能語音技術白皮書 22 有研究提出了 TasNet,采用編碼器-解碼器結構替換了頻域方法中的短時傅里葉變換,避免了幅度譜和相位譜的解耦,進一步提高了分離性能。在 TasNet 的基礎上,有研究提出了 Conv-TasNet,用 CNN 替代了 LSTM,提高了模型推理速度并降低了模型參數量。此外,也有將 transformer 應用于語音分離的研究。聯想的語音分離方案是在語音分離的基礎上,針對會議場景下設備端用戶個性化應用的需求實現的目標人語音分離技術?;玖鞒倘鐖D 3-11 所示:圖 3-11 聯想語音分離算法流程圖 網絡結構基于 DCCRN,語音經過編碼層后得到 bottleneck
54、特征,目標人參考語音經過相同結構但不同網絡權重的編碼層得到目標人的聲紋特征,兩種特征拼接后,經過 LSTM 層和解碼層,得到分離后的目標人的語音。該方案具有較好的分離性能,同時具有一定的降噪性能。3.23.2 語音喚醒語音喚醒 語音喚醒(Voice Trigger)也稱喚醒詞檢測(Wakeup Word Detection)或關鍵詞定位(KWS,Keyword Spotting),可以看作語音識別的子任務。喚醒詞識別是在連續音頻流中檢測預定義的一個喚醒詞或一組關鍵字,同時給出目標喚醒詞時間戳的技術12,喚醒技術描述如圖 3-12 所示。聯想智能語音技術白皮書 23 圖 3-12 語音喚醒技術說
55、明 傳統的喚醒系統根據音頻得到喚醒詞的關鍵信息,從而完成識別功能。訓練流程如圖 3-13所示。首先使用大量喚醒詞和自由文本的音頻來訓練一個針對特定詞的喚醒詞識別系統。然后依據訓練好的系統計算采集的音頻流內喚醒詞存在的概率,通過與設定好的閾值進行比較來決定是否喚醒。這種系統具有結構簡單、參數較少、計算快速、準確率高、魯棒性高等優點,我們稱這種架構為小尺寸喚醒詞識別系統。圖 3-13 小尺寸喚醒詞識別系統 除 了 常 用 的 小 尺 寸 喚 醒 詞 識 別 系 統 外,基 于 樣 例 的 口 語 詞 檢 測(QbESTD,聯想智能語音技術白皮書 24 QuerybyExample Spoken T
56、erm Detection)1314 也被廣泛使用。通常會先使用大量非喚醒詞音頻訓練一個深層特征提取網絡。依據這個特征提取網絡來得到有限數量的喚醒詞音頻的深度特征,最后用這個特征提取網絡在實時采集的流式音頻中提取特征,采用特定規則構建解碼手段來得到喚醒的結果。這種方法的優勢在于能夠應對各種復雜的語言場景,較為靈活,泛用性高。另一種常見的喚醒詞識別系統根據所給文本來完成喚醒功能,用戶只需提供喚醒詞的文本信息而且不限定喚醒詞,整個喚醒系統不依賴于喚醒詞音頻。大部分文本定義的喚醒詞系統是基于語音識別系統的基礎進行適當修改得到的15。選用語音識別系統得到實時音頻的詞格解碼結果,將識別所得的狀態級詞格轉
57、換為含有時間戳信息的詞語級詞格,最后與關鍵詞的 FST(Finite State Transducer)結構進行組合,便可得到喚醒詞在被檢索語音出現的位置和概率。整個喚醒詞系統都是基于語音識別系統進行計算的,所以整體模型尺寸和計算復雜度都要高于小尺寸喚醒詞系統,功耗也更大。但是同樣是因為基于語音識別系統,該框架的準確率最高,因此適用于精度要求較高的場景。聯想兩階段語音喚醒系統 聯想針對語音在 PC、手機、IOT 設備上的應用,既要保證算法的準確率,又要兼顧模型計算復雜度,以保證快速響應和低功耗,因此基于小尺寸模型框架設計了兩階段喚醒策略。如圖 3-14所示:聯想智能語音技術白皮書 25 圖 3
58、-14 聯想語音喚醒模型結構圖 此系統由兩階段喚醒流程組成。在模型訓練時,兩個階段喚醒模型分別進行優化,訓練流程如圖 3-15 所示。圖 3-15 聯想語音喚醒模型訓練流程 在模型推理部分,使用少量計算資源來運行一個非常少量參數構建的喚醒詞識別模型。當分數超過閾值時,調用稍大的計算資源來運行第二階段的喚醒詞識別模型來完成最終的喚醒詞識別判決。兩個喚醒模型的閾值選擇遵從“第一階段喚醒模型盡可能正確判斷非喚醒,第二階段喚醒盡可能正確判斷喚醒”的原則,具體選擇如圖 3-16 所示:聯想智能語音技術白皮書 26 圖 3-16 聯想語音喚醒閾值選擇策略 上圖為兩個階段模型性能曲線,橫軸代表每 100 小
59、時的誤喚醒次數,縱軸代表錯誤拒絕率。模型取不同閾值即可得到一組橫縱坐標,最終得到性能曲線。對于一階段喚醒模型來說,由于參數較少,性能相比二階段喚醒模型較差,所以一階段模型性能曲線整體在二階段模型性能曲線的右上方。選擇閾值時,一階段模型盡可能選擇誤喚醒次數較高但錯誤拒絕率較低的閾值,以保證盡可能正確判斷非喚醒。因為大部分的非喚醒已經被一階段模型過濾掉,提交給二階段模型的音頻均和喚醒音頻相似,對于二階段模型,我們選擇錯誤拒絕率較高但誤喚醒較低的閾值,以保證盡可能正確判斷喚醒。這樣兩階段的喚醒模型既保證了快速拒絕非喚醒,又保證了正確喚醒,實現了快速、正確的響應機制。3.33.3 語音識別語音識別 語
60、音識別(Speech Recognition)是把語音轉成文字的過程,通過模型計算將語音序列轉化為文本序列,即給定輸入序列=1,,尋找詞序列=1,,使得概率(|)最大,用貝葉斯公式表示為:聯想智能語音技術白皮書 27 (|)=(|)()()其中(|)為聲學模型(AM,Acoustic Model),求解給定詞時聲學輸入的概率(),為語言模型(LM,Language Model)計算詞的概率,()為輸入序列概率,固定不變。語音識別就是要優化聲學模型(|)和語言模型(),使得(|)最大。目前主流的語音識別框架包括混合架構和端到端架構兩種,混合語音識別對兩部分分別進行優化,基于端到端的語音識別將兩部
61、分進行聯合優化,直接求解最優的(|),下面對上述兩種不同的語音識別框架進行介紹。3.3.1 混合架構語音識別系統 在語音識別過程中,通過聲學模型將語音特征轉化為建模單元(一般為音素),然后通過語言模型將一系列建模單元轉化為完整一句話,這種聲學模型和語言模型分開訓練優化的系統稱為混合語音識別系統。圖 3-17 展示了混合語音識別系統的識別流程,下面將具體介紹識別系統中兩個最重要的部分:聲學模型和語言模型。圖 3-17 混合語音識別系統解碼流程 1.聲學模型 聲學模型是語音識別系統中的重要組成部分。聲學模型將聲學和發音學的知識進行整合,以語音特征作為輸入,為可變長特征序列生成其對應的建模單元序列的
62、概率分布。通過聲學模型從特征序列得到其對應的概率最大的建模單元序列,然后通過語言模型將建模單元序列轉換為概率最大的文本序列,即得到最終的語音識別結果。不同的聲學模型可以對語音進行不同粒度的建聯想智能語音技術白皮書 28 模,常用的聲學模型建模單元主要有詞、子詞、音素,其中音素是構成音節的最小單位或最小的發音片段,每種語言的發音都可以用音素組合表達出來,所以聲學模型中一般采用音素作為建模單元。在混合語音識別系統中,聲學模型主要采用的是“用于序列跳轉的隱馬爾可夫模型(HMM)“和”根據當前幀來預測狀態的深度神經網絡(DNN)”混合架構。圖 3-18 基于 DNN-HMM 的語音識別聲學模型結構 圖
63、 3-18 即為 DNN-HMM 混合系統的聲學模型結構。在該結構中 HMM 模型用來描述語音信號的動態變化,DNN 用來估計語音特征的觀測概率。在給定聲學觀察特征的條件下,用 DNN的每個輸出節點來估計 HMM 的某個狀態的后驗概率。DNN 中可以通過更換或者組合不同的神經網絡結構來更好地描述語音特征,比如可以通過 CNN+LSTM 的結構來更好地捕捉語音中的時序信息。除此之外,DNN-HMM 模型可以通過維特比(Viterbi)算法進行訓練和解碼,非常高效。2.語言模型 語言模型描述的是在句子中詞與詞之間的轉換概率,一般利用鏈式法則,把一個句子的概率拆解成其中每個詞的概率之積。設W是由nw
64、ww,.,21組成的,則()WP可以拆成:()()()()()1321213121.,|.,|=nnwwwwwPwwwPwwPwPWP 每一項都是在已知之前所有詞的條件下當前詞出現的概率。實際使用過程中通常不會通過前面所有詞的概率計算當前詞的概率,而是假設每個詞的概率分布只依賴于歷史中最后相鄰的聯想智能語音技術白皮書 29 若干個詞,這樣的語言模型稱為 n-gram 模型。在 n-gram 模型中,每個詞的概率分布只依賴于前面 n-1 個詞,現在用得比較多的有 tri-gram,four-gram,five-gram。3.解碼器 聲學模型和語言模型都訓練完成之后,通過有限加權狀態轉化機(WFS
65、T)建立一個 HMM狀態到單詞的映射,即一個包含所有可能序列的狀態空間,然后通過解碼器來搜索找到最有可能的狀態序列,使得輸出的概率最大(即在聲學模型得分和語言模型得分最高)。搜索主要通過維特比算法(一種動態規劃算法)實現,搜索的過程叫做解碼,實現解碼的模塊即為解碼器。在混合語音識別系統中,解碼器主要是基于加權有限狀態轉錄機實現。3.3.2 端到端語音識別系統 端到端語音識別技術,是指模型根據輸入的語音特征直接輸出字符序列不依賴中間建模單元表示、幀級別的對齊信息和復雜的解碼過程。端到端的語音識別技術簡化了語音識別系統的搭建過程,近幾年發展迅速并逐漸成為主流。其中,最主要的三種端到端模型結構分別是
66、 CTC(Connectionist Temporal Classification)模型、Transducer 模型和 Attention-based Encoder-Decoder 模型。1.CTC 模型 CTC 是一個計算輸入語音信號和輸出字符序列之間對齊信息的目標函數。對于語音識別模型,對齊是指從輸入語音信號到輸出字符序列的映射關系。由于語音信號和字符序列的長度通常是不相等的,語音的時間步和字符之間的對齊關系通常是多對一的。為了表示語音中的靜音(即無說話人語音的片段)和連續相同字符之間的轉移關系,CTC 引入了一個 blank 標簽,這樣便可以定義語音和標簽序列之間的一個有效對齊:若一
67、個對齊路徑中去除連續的重復字符和之后和標簽序列一致,則可認為是一個有效的對齊。圖 3-19 展示了字符序列“hello”的三種有效對聯想智能語音技術白皮書 30 齊。圖 3-19 CTC 解碼中的有效對齊 對于一個字符序列,其關于輸入語音信號的后驗概率可以表示為所有該序列對應的有效對齊的概率之和。CTC 假設每個時間步的輸出是相互獨立的,即對一條有效對齊來說,其概率是每個時間步上概率相乘計算得到的。CTC 能夠有效處理序列分類的問題,但它同時也對輸入序列和輸出序列引入了兩個假設:條件獨立性假設:CTC 假設每個時間步的輸出是相互獨立的。在語音識別任務中,CTC不考慮輸出序列上下文之間的語義相關
68、性,通常在解碼階段需要引入一個額外的語言模型來提升識別文本的流暢度。多對一映射:CTC 假設輸入序列的長度大于輸出序列,即無法處理輸出序列長度大于輸入序列的情況。2.Transducer 模型 Transducer 模型的提出有效解決了上述 CTC 模型存在的問題,主要包括兩方面的改進:1)引入了一個 Predictor 網絡和一個 Joint 網絡來建模輸出序列之前的轉移關系;2)允許每個時間步輸出多個單元,使得模型能夠處理輸出序列長度大于輸入序列的情況。圖 3-20 展示了一個Transducer 模型:聯想智能語音技術白皮書 31 圖 3-20 Transducer 模型基本結構 Tra
69、nsducer encoder 的功能和 CTC 模型的 encoder 類似,將輸入的語音信號編碼為一個時序的特征序列,每個時間步的特征對應一個語音片段窗口。Predictor 網絡是一個自回歸的模型,它的作用類似于一個標準的語言模型,即輸入是前面已經輸出的字符單元,然后根據已經輸出的字符生成用于預測下一個字符的特征。Joint 網絡通常由一個簡單的全連接網絡來實現,它將encoder 和 predictor 網絡輸出的特征向量進行融合,并輸出一個融合后的特征向量,該特征向量被映射到和輸出詞表(包括 blank 標簽)相同的維度上并經過一個 Softmax 非線性函數轉化為詞表單元上的概率分
70、布。Transducer 允許每個時間步輸出多個字符,有效解決了 CTC 無法處理輸出序列長度大于輸入序列長度的樣本的問題。目前,Transducer 模型被廣泛應用至流式語音識別場景,根據 encoder 的不同,模型結構可以分為 RNN-Transducer18和 Transformer-Transducer19等。3.LAS(Listen-And-Spell)模型 LAS 模型是一種基于注意力機制的 Encoder-Decoder(AED,Attention-based Encoder-Decoder)模型架構,這類模型最早在自然語言處理領域的機器翻譯任務中被提出,后來被廣泛應用于諸多序
71、列到序列的預測任務。語音識別任務是一個從輸入語音特征序列到輸出字符序列的預測任務,AED 也成為了語音識別領域的一類主流端到端模型框架。圖 3-21 展示了一個 AED模型的基本架構。聯想智能語音技術白皮書 32 圖 3-21 AED 模型基本結構 Encoder 網絡負責從輸入信號中抽取特征,將輸入信號表示為隱式特征向量。我們期望隱式特征向量能夠包含輸入信號的全局信息,并作為輸入傳給 Decoder 網絡。Decoder 負責將 Encoder 輸出的隱式特征向量翻譯為輸出序列。對于一個自回歸的 Decoder,其在每一步輸入的信息包含兩部分:1)Decoder 上一步輸出的隱式狀態;2)根
72、據該隱式狀態在 Encoder 隱式特征上通過注意力機制計算得到的特征加權和。Decoder 輸出的隱式狀態會被映射到標簽維度,并通過 Softmax 函數計算得到標簽上的概率分布。通過引入注意力機制解決了編碼器無法充分保留長序列上下文信息的問題,模型的優化目標使得注意力機制為當前解碼最相關的信息分配更高的注意力。AED 模型的解碼是一個自回歸的解碼過程,每步生成的一個標簽,并將前一個生成的標簽作為下一步的輸入。模型解碼通常從一個起始字符(通常表示為)開始,至模型輸出終止字符(通常表示為)結束。和傳統的 Sequence-to-sequence 模型相比,AED 模型在語音識別任務上能夠取得更
73、好的效果,但同時也需要消耗更多的算力。此外,注意力機制為模型帶來了更好的可解釋性,通過可視化模型在預測輸出序列時的注意力分布,能夠幫助理解和診斷模型的預測過程。聯想智能語音技術白皮書 33 聯想語音識別系統 目前聯想的語音識別系統針對不同的場景和應用分別開發了基于混合模型的語音識別系統和基于端到端模型的語音識別系統。1.混合語音識別系統 聯想基于混合語音識別模型搭建了云端的語音識別引擎,圖 3-22 展示了整個識別鏈路:圖 3-22 聯想混合語音識別系統 為了更好的用戶體驗,語音識別系統除了基礎的語音識別還需要加入其他模組進行聯合優化得到最終的識別結果。聯想的混合語音識別系統在前端、后處理、熱
74、詞響應、聲學模型等方面都做了大量優化工作,具體來說有以下幾方面:海量數據優化通用場景下的語音識別。本系統語言模型基于TB級語料迭代,不同領域、多種來源的語料可以使模型在通用場景下達到穩定可靠的識別效果,對于新領域也可以做到快速適配和迭代。支持中英混識別。本系統的聲學模型采用國際統一音標,可以記錄大多數國家的語言的音素。同時,聯想針對中英文常用詞匯建立了完善的發音詞典,構建的中英混合識別系統有效解決了諸多應用場景中語音出現的 code-switching 問題。支持一句話短語音識別,也支持連續長語音實時識別;既支持在線識別模式,也支持離線文件識別模式。通過使用不同的深度神經網絡結構來適應不同應用
75、場景和需求。聯想智能語音技術白皮書 34 支持用戶熱詞(Hot Word),以提高目標場景專有名詞召回率。熱詞技術方案并不需要訓練語言模型,可實現快速更新和生效。2.端到端語音識別系統 除了混合識別框架,聯想也開發了基于端到端的 two-pass 語音識別系統,系統結構如圖 3-23 所示。圖 3-23 聯想端到端語音識別系統 語音首先經過共享編碼器抽象成為深層特征,然后一條鏈路將每個時間步的輸出依次傳給RNN Transducer 解碼器,RNN Transducer 可以實時地輸出識別結果;另一條鏈路在整條語音解析完成后,將全部輸出傳給附加編碼器,附加編碼器進一步抽取特征將輸出傳給 AED
76、 解碼器,AED 解碼器因為看到了整條語音的信息可以更好地識別語音,所以可通過 AED 的結果來進一步對 RNNT 的輸出進行重打分,這就是 two-pass 的鏈路。聯想端到端語音識別系統具備以下優勢:體積小,效率高,便于部署。RNN-T 較為輕量,可以不需要語言模型直接識別出結果,可以很好地部署在端側。一個系統同時實現流式與非流式識別,無需格外訓練。RNN-T 可以實時輸出識別結果,聯想智能語音技術白皮書 35 同時通過 AED 的重打分也可以進一步對 RNNT 的結果進行糾正,從而獲得準確率更高的非流式識別結果,用于離線文件識別、會議紀要等場景。3.43.4 語音合成語音合成 語音合成(
77、Speech Synthesis),也被稱作 Text-to-Speech,是一種將文本轉換為語音的技術。它使得機器可以擁有像人一樣自如說話的能力,是人機語音交互中的重要一環?;谏疃葘W習的語音合成技術因其自然度較好,是現在商用合成系統的主力框架,主要結構如圖 3-24 所示。系統由三部分構成:文本前端、聲學模型和聲碼器。文本前端負責將輸入的文本規范化、字形序列轉換為聲韻母或音素序列、添加韻律信息,最終生成包含語言學特征的序列并輸入到聲學模型中;聲學模型將該語言學特征轉換為聲學頻譜特征;聲碼器將該頻譜特征重建為時域波形,得到最終的語音。圖 3-24 基于深度學習的語音合成技術框架 1.文本前端
78、 文本前端將輸入的文本轉換為包含語言學特征的序列,通常由三個模塊組成:文本預處理模塊、G2P(Grapheme-to-Phoneme)模塊和韻律預測模塊。文本預處理模塊將輸入的文本做一些正則化處理,將阿拉伯數字、單位符號和其他特殊符號轉成發音文字。例如:輸入“溫度 15-35”,輸出“溫度十五到三十五攝氏度”。它是文本前端的難點,目前主流方法仍然是基于規則的方法。G2P 模塊負責將字形序列轉換為聲韻母或音素序列。轉換出的序列單元代表了后續聲學模型的建模單元。對于中文而言,可以使用聲韻母或音素作為建模單元,一般會將韻母或元音音素后添加音調,如:韻母 ao1,元音 AW1。G2P 的轉換過程涉及多
79、音字預測和變調處理。很多語種聯想智能語音技術白皮書 36 中都含有多音字,例如中文中,“早晨的朝(zhao1)陽”和“朝(chao2)陽區”中的“朝”字,字形相同,但發音不同,多音字預測一般采用多音字詞典結合模型預測的方式。變調處理包括三聲變調、“一”、“不”變調、輕聲變調、兒化音變調等。變調處理一般采用基于規則的方法。韻律預測模塊負責預測出文本中的韻律特征。根據停頓時間從長到短,韻律特征可以分為以下幾個層級:語調短語、韻律短語、韻律詞。韻律預測通常采用分詞結合模型預測的方式進行。2.聲學模型 聲學模型將語言學特征序列轉換為聲學頻譜特征。語言學特征序列通常為包含韻律特征的聲韻母或音素序列,聲學
80、頻譜特征通常為線性頻譜或梅爾頻譜。聲學模型通常也由三部分組成:編碼器、對齊模塊和解碼器。圖 3-25 聲學模型框架 如圖 3-25 所示,語言學特征序列輸入到編碼器得到隱狀態序列,經由對齊模塊后輸入到解碼器得到最終的聲學頻譜序列。編碼器和解碼器可以由多種模型結構組成,典型結構多以 CNN,、RNN 和 Transformer 為主,例如 Deep Speech 系列20、Tacotron 系列21、Fastspeech 系列22 等。中間的對齊模塊,在傳統的 Seq2Seq 架構中會使用注意力機制(Attention)來進行對齊的學習,比如 Tacotron 系列的模型但由于整個模型自回歸的結
81、構,導致模型推理速度較慢。另外由 Fastspeech 提出了一種非自回歸的模型結構,由時長預測模型來學習音素序列與聲學特征幀數之間的對齊關系,再由一個長度調節器直接將編碼器得到的隱狀態序列復制擴展到和聲學特征相同的長度,再輸入解碼器中。雖然這種方式大大提高了模型推理的速度,但如何獲取每個音素對應的持續幀數來訓練時長預測模型仍是一個問題。有兩種方法可以解決這一問題。一種是使用外部對齊:Fastspeech 從預訓練的基于自回歸注意力的 TTS 模型中提取對齊信息;Fastspeech2 使用一個強制對齊工具來獲得對齊信息。另一種是使用內部對齊:JDI-T 采用與一聯想智能語音技術白皮書 37
82、個自回歸模型聯合訓練的方式來獲取對齊信息;GlowTTS 使用 monotonic alignment search 來提取對齊信息;AlignTTS 在訓練階段利用統計特征和前后向算法得到對齊。然而,這些方法通常訓練過程復雜、訓練時間長或需要強制對齊工具。聯想提出了一種簡化有效的方式來解決這一問題,將在后續章節詳細介紹。3.聲碼器 聲碼器(Vocoder)負責將聲學特征還原為時域波形?;谏窠浘W絡的聲碼器通常是一個生成模型,有自回歸模型(WaveNet,、WaveRNN,、LPCNet 等)、基于流(Flow)的模型(WaveGlow等)以及基于生成對抗網絡(GAN,Generative A
83、dversarial Networks)的模型(MelGAN、HiFiGAN23等)。目前學術界和工業界大都采用基于 GAN 的模型,其中 HiFiGAN 是目前較為常用的模型。聯想語音合成系統 聯想語音合成系統也基于業界主流技術構建。其中,我們提出了一種不需要額外對齊的簡化且有效的聲學模型來解決非自回歸聲學模型中的對齊問題24。整個模型的結構如圖 3-26 所示:聯想智能語音技術白皮書 38 圖 3-26 聯想語音合成系統聲學模型結構圖 左邊是一個基于 Transformer 的合成器(Synthesizer),它基于類似 Fastspeech 中的 Feed Forward Transfo
84、rmer(FFT)結構。合成器由五部分組成:Phone Embedding,Lower FFT Block,Length Regulator,Higher FFT Block 和 Linear Layer。受 Fastspeech 系列的啟發,模型也采用時長預測模型為長度調節器生成時長信息,它可以擴展輸入的文本隱狀態序列以匹配梅爾頻譜的長度。為了獲得持續時間的 Ground Truth 來訓練時長預測模型,我們提出了一種對齊生成器(Alignment Generator)。受到 CTC 的語音識別的啟發,我們引入了一個基于 CTC 的識別模塊作為內部對齊生成器,以提供梅爾譜圖和音素序列的對齊信
85、息,作為時長預測模型學習的 Ground Truth。在訓練階段,損失函數由三部分組成:預測和真實值之間的梅爾譜的 MAE 損失、對齊生成器訓練的 CTC 損失和時長預測模型的持續時間損失。對齊生成器僅用于訓練階段:使用前向后向算法來計算 CTC 損失;使用維特比算法找到最大似然路徑作為對齊,對齊可以轉換為持續時聯想智能語音技術白皮書 39 間的 Ground Truth D。在推理階段,我們只使用時長預測模型來獲得長度調節器所需要的持續時間。這種不需要額外對齊的聲學模型在保證了合成語音質量和推理速度的同時,大大簡化了訓練流程。3.53.5 副語言語音屬性分析副語言語音屬性分析 語音中除了語言
86、語義信息,還包含著豐富的非語義信息,如人的性別、年齡、情感、語種、健康狀態、環境中聲音事件以及音頻場景等,可以統稱為副語言語音屬性。對于這些富信息(Rich information)的識別技術稱為副語言語音屬性分析技術,一般情況下可以采用統一的算法框架來解決通用問題。下面就以聲紋識別和音頻分類為典型技術進行說明。3.5.1 聲紋識別 聲紋識別,即說話人識別,是通過一段語音對說話人身份進行確認或辨識的技術。按照應用場景不同,聲紋識別可以分為說話人確認(Speaker Verification)與說話人辨識(Speaker Identification)兩大任務。說話人確認用于判斷待測語音與已有的
87、注冊語音是否來自同一說話人,是 1:1 的問題;說話人辨識用于判斷待測語音屬于語音庫中哪一個說話人,是 1:N的問題。按照待測語音內容的不同,說話人確認又可分為文本相關的說話人確認與文本無關的說話人確認兩大類。文本相關的說話人確認任務要求待測語音的內容為指定的語音內容,如一串數字或者特定的短語;文本無關的說話人確認任務對待測語音的內容沒有限制。聲紋識別的技術路線經歷了從傳統統計方法到深度學習方法的轉變。傳統的聲紋識別技術包括特征提取、建模和后端分類等幾個步驟,較具有代表性的是基于高斯混合模型(GMM,Gaussian mixture model)的 i-vector25技術。傳統方法由于是幾個
88、步驟的串聯,各個步驟的優化只能在其內部進行,后端的分類結果無法對中間過程產生直接的指導作用,因此無法實現對整聯想智能語音技術白皮書 40 個系統的聯合優化。自深度學習蓬勃發展以后,人們開始將深度學習技術應用于聲紋識別領域?;谏疃葘W習的聲紋識別技術通過深度神經網絡和大量的標注數據使系統自主學習適合于分類的特征表達,非常易于實現整個系統的聯合優化,在性能上也不斷超越 i-vector。具有代表性的工作有 x-vector26,deep-ResNet-vector27等。i-vector/UBM-GMM/PLDA i-vector/UBM-GMM/PLDA 聲紋識別系統是基于機器學習的經典聲紋識別
89、系統,其構建過程如圖 3-27 所示,包括語音特征提取、通用背景模型(UBM,Universal Background Model)建模、最大后驗自適應(MAP Adaptation,Maximum A Posterior Adaptation)28、因子分析/i-vector 建模和概率線性判別分析(PLDA,Probabilistic Linear Discriminant Analysis)29等幾個步驟。由于在實際應用中難以收集到目標說話人足夠數量的語音信號來建立其對應的 GMM 生成模型,所以人們使用大量來自不同說話人的語音信號構建通用背景模型,通用背景模型可以表征人類語音中的共性部
90、分;然后使用說話人的少量音頻提取聲學特征,采用 MAP 自適應技術對通用背景模型進行調整,得到與說話人相關的 GMM 模型,求得該 GMM 的均值中心化超向量;由于得到的超向量維度過高,且包含了除說話人身份特征以外的信息,因此對超向量進行因子分析和降維得到可以表征說話人身份特征的 i-vector。最后利用有標注的 i-vector 訓練 PLDA 模型,用于測試過程中對待測語音和注冊語音的打分。圖 3-27 i-vector/UBM-GMM/PLDA 聲紋識別系統 x-vector x-vector 是基于深度神經網絡的有監督聲紋模型。如圖 3-28 所示,x-vector 模型包含語音特征
91、提取、幀級別特征提取、時間維度池化層和句子級別特征提取等幾個模塊。x-vector 采用時聯想智能語音技術白皮書 41 延神經網絡(TDNN,Time Delay Neural Network)對輸入的語音特征進行說話人信息的抽??;然后使用時間維度池化層對抽取的說話人特征在時間維度上求取均值和標準差,從而將不定長的特征頻譜轉化為定長的句子級別的特征向量;最后使用前向神經網絡將句子特征進一步轉化為說話人的后驗概率,得到說話人的分類結果。前向神經網絡第一層的輸出結果即為 x-vector。相比于 i-vector,x-vector 擁有更強的表征說話人身份特征的能力。圖 3-28 x-vector
92、 聲紋識別系統 deep-ResNet-vector deep-ResNet-vector 也是基于深度神經網絡的有監督聲紋模型。如圖 3-29 所示,與 x-vector 類似,deep-ResNet-vector 模型同樣包含語音特征提取、幀級別特征提取、池化層和句子級別特征提取等幾大模塊。不同的是其采用深層殘差神經網絡(Deep Residual Neural Network)作為幀級別的特征提取模塊。在參數量相同的情況下,深層殘差神經網絡的特征提取能力強于TDNN。由于 ResNet 輸出為三維的特征圖,在句子級別特征提取時,可以將時間維度和特征維度進行合并,使用池化層在聯合維度上得到
93、均值和標準差作為句子級別的特征向量,或使用全局平均池化層實現直接降維。最后再將句子級別的特征向量輸入到前向神經網絡得到說話人的分類結果。前向神經網絡的第一層輸出即為 deep-ResNet-vector。聯想智能語音技術白皮書 42 圖 3-29 deep-ResNet-vector 聲紋識別系統 聯想芯片級聲紋確認系統 目前聯想在聲紋識別上的研究主要以說話人確認為主。隨著深度學習的快速發展,說話人確認技術已經取得了長足的進步,但多數基于深度學習的說話人確認系統對計算資源要求較高,難以應用于如手機、電腦等計算資源有限且要求低延遲的終端設備。聯想為 PC 上的聲紋喚醒 AI Chip 提出了面向
94、輕量級應用的非對稱“注冊-確認”說話人確認方案30,如圖 3-30 所示。通常情況下,說話人確認系統均為對稱式系統,即在用戶注冊階段和使用階段均用同一模型提取聲紋特征,這使得研究者只能開發規模較小但性能相對不足的系統來滿足端側設備的限制和需求。而非對稱“注冊-確認”說話人確認系統包含大、小尺度兩個模型,充分利用了用戶只進行一次注冊且對注冊過程中的延遲不敏感的特點,在注冊階段使用準確率更高但計算資源消耗較大的大尺度模型提取并保存用戶的聲紋特征,在后續的使用過程中,用小尺度模型從待測語音中提取說話人的聲紋特征用于身份驗證。聯想智能語音技術白皮書 43 圖 3-30 聯想非對稱注冊-驗證說話人確認系
95、統 具體地,在系統的訓練階段,從語音中提取的聲學特征被同時送入大尺度與小尺度模型,兩個模型均用分類損失函數進行優化,并在大、小尺度模型提取聲紋特征的網絡層后增加額外的損失函數來減小兩聲紋特征間的差距。在系統的推理階段,大尺度模型僅用于說話人的初始語音注冊,小尺度模型用于從待測語音中提取聲紋特征,然后進行打分判別。該系統中使用的大尺度模型為 ECAPA-TDNN31,小尺度模型為基于 ECAPA-TDNN 采用減小特征圖大小和可分離卷積等方法得到的輕量級 ECAPA-TDNNLite。在未使用非對稱式結構訓練的情況下,相比于現有的輕量級說話人確認網絡,ECAPA-TDNNLite 在同等計算量下
96、取得了更低的等錯誤率(EER,Equal Error Rate)和更快的推理速度。在采用非對稱式的系統結構后,EER 得到了進一步的降低。這種非對稱式的系統結構取得了較好的聲紋識別效果,達到了性能與計算資源需求的良好平衡,滿足實際落地應用的需求,為提高 IOT設備的性能提供了新的解決思路。聯想智能語音技術白皮書 44 3.5.2 音頻分類 聲音分類技術是對音頻相關的分類任務的統稱,目的是從輸入音頻數據中獲得任務所需的分類標簽,輸出對應的聲源類別和存在時間等信息,在多媒體分析與檢索、音頻監控、智能輔助駕駛、智能安防等應用領域有廣泛的應用前景。按照音頻分類輸入音頻數據的不同,又可以細分為語音分類、
97、音樂分類、聲源分類等多種應用類型。隨著深度學習技術的迅速發展,基于深度神經網絡的有監督學習方法在音頻分類性能上大幅超越了傳統的機器學習方法,成為目前學術研究和工業界落地的前沿和熱點。圖 3-31 聲音分類有監督學習流程圖 基于深度學習的音頻分類算法是目前聲音信號分析與分類的主流方法,模型框架如圖 3-31所示32,分為模型訓練和模型測試兩個階段。在模型訓練階段需要對訓練數據集的音頻波形文件進行聲學特征提取,獲得模型訓練所需的輸入特征表達,常用的聲學特征包括音頻幅度譜(Magnitude)、對數梅爾譜(Log-mel spectrogram)、梅爾頻率倒譜系數(MFCC)等。同時,需要對標注信息
98、進行數據預處理,得到模型訓練目標的向量表示。對于音頻分類任務,一般在模型的輸出層通過 softmax 映射為不同類別概率構成的多維向量,向量長度和音頻分類數量相同,對應的訓練目標使用 one-hot 向量表征。對于幀級別(Frame-level)的分類任務而言,還需要對聯想智能語音技術白皮書 45 不同聲源出現的時間幀信息進行區分,生成二維訓練目標。在模型測試及部署階段,對測試音頻文件或數據流進行特征提取后,將特征送入訓練好的聲學分類模型,輸出對應的幀級別或句子級別的分類結果。聯想定制化音頻分類系統 雖然目前的聲音分類算法已經在開源數據集上取得了很好的分類性能,但在實際落地應用時仍然面對實際聲
99、學環境復雜、聲音信噪比低、聲源互相重疊干擾情況嚴重等問題,導致實際分類性能受限。另外,由于聲音分類算法的應用場景廣泛,不同場景間使用的數據、模型和計算量需求相差較大,因此使用單一數據集和單一模型并不能滿足在廣泛應用場景下的業務需求。聯想結合客戶實際業務需求,采用自研的音頻預處理訓練部署框架,實現用戶音頻分類的定制化任務,可以滿足不同場景和計算量需求的音頻分類任務,提高特定場景下的分類性能。同時聯想音頻分類框架還提供預處理模型,支持對大量無標簽音頻數據進行聚類和預標注,支持主流音頻分類模型的訓練和優化,在 Audioset、ESC50、DCASE 等開源數據集上達到業界領先水平。通過與聯想 AI
100、 Master 平臺 Letrain 框架進行集成,支持在 x86 平臺上進行離線部署和業務落地,其開發流程如圖 3-32:圖 3-32 聯想聲音分類開發流程 數據準備 用戶創建項目并結合業務需求上傳數據集,使用大規模數據集預訓練分類模型對無標簽數據集提取句子級別的向量表征,進行無監督聚類和預標注,由用戶對數據集進行確認和篩選,并對數據進行特征提取。模型訓練 用戶選擇所需模型進行訓練,模型訓練支持基于預訓練模型的微調(Fine-tuning)和重新訓聯想智能語音技術白皮書 46 練(Training from scratch)兩種模式以及對應的參數配置,分類模型采用業界主流的基于 CNN和 T
101、ransformer 的兩類模型結構,可以針對不同類別和計算量需求調整模型結構和參數量,滿足實際應用需要;對于 Transformer 結構普遍存在的計算需求大的問題,采用了最新的級聯式Transformer 結構,將模型參數量降低了 50%以上。模型評估 模型訓練完成后,可在線評估模型在測試集上的分類性能指標和生成評估報告,同時支持可視化展示。模型部署 模型確定后,可以通過下載服務器端 SDK,將模型以離線 SDK 的方式部署到 x86 服務器端并接入相關服務,供用戶在實際生產環境調用,以快速簡潔、無代碼編程方式實現技術落地。聯想定制化的音頻分類訓練框架可以更好地滿足用戶對于不同任務場景、不
102、同數據集分布、不同分類類別和不同計算量的音頻分類需求,而且基于預訓練模型進行微調的訓練模式可以結合預訓練模型參數和用戶實際需求場景數據的特征分布,實現更好、更快、更強的模型訓練過程,大大減少了模型訓練所需時間成本,為云端訓練與端側部署相結合的解決方案提供了良好的范例。3.63.6 說話人日志說話人日志 說話人日志(SD,Speaker Diarization)是按照說話人身份給出一段音頻中不同說話人講話時間戳標記的技術,即解決“誰在什么時候說話(who spoke when)”的問題。該技術不需要提前進行說話人注冊,也不需要預知音頻中所包含的說話人數量,給定一段音頻即可給出各時間片段對應說話人
103、的身份標簽。說話人日志技術在日常生活中有著廣泛的應用場景,如:1)進行音頻歸檔:通過說話人日聯想智能語音技術白皮書 47 志系統得到帶有說話人身份標簽的時間戳后,可以按照身份標簽對音頻進行切割和歸類,從而能夠從會議、電話對話等類型的自然口語交談數據中構建各個說話人的音頻檔案;2)做多人語音識別的前端:語音識別研究面向單人音頻,在存在多人講話的音頻中,語音識別的準確率會明顯下降,說話人日志系統可以將語音按說話人區別開來,分別執行語音識別流程,從而提升多人場景下語音識別的準確性。目前主流的說話人日志系統由多個獨立的子模塊組成,如圖 3-33 所示。主要包括語音活動檢測(SAD)、音頻片段分割(Au
104、dio Segmentation)、聲紋特征提?。⊿peaker Embedding Extraction)、相似度估計(Similarity Measurement)和聚類(Clustering)。圖 3-33 說話人日志流程圖 語音活動檢測 語音活動檢測用于區分一段音頻中的語音與非語音段。語音活動檢測模塊包括聲學特征提取和分類器兩部分。常用的聲學特征有過零率(Zero Crossing Rate)、基音(Pitch)和梅爾頻率倒譜系數(MFCC)等。分類器通過提取的聲學特征判斷當前音頻片段中是否包含語音。目前各種深度神經網絡已開始用于語音活動檢測,如長短時循環神經網絡(LSTM)、深度殘差
105、神經網絡(Deep Residual Network)34 等,在性能上大大超越傳統統計方法并成為主流。音頻片段分割 音頻片段分割模塊將進行語音活動檢測之后得到的語音區域按照一定的準則進行切分,使得切分后的每個語音片段中只包含一個說話人。切分的方法通常分為基于說話人轉折點檢測的分割和均勻分割兩類。早期的說話人日志系統采用基于說話人轉折點檢測的分割方法,可通過貝葉斯準則檢測音頻中說話人發生轉變的節點,以此作為語音片段分割的邊界。但這種方法檢測精度不高,一旦漏檢對后續步驟影響很大;而且這種方法得到的片段長度通常不連續,變長因素的聯想智能語音技術白皮書 48 影響也會降低后續模塊對說話人表征的準確性
106、。因此現已多采用均勻分割方法,即用長度固定的滑動短窗對語音進行切分,窗長通常為一到兩秒,可以近似認為每個片段只包含一個說話人。聲紋特征提取 聲紋特征提取用于從分割得到的語音片段中提取可以表征說話人身份特征的聲紋向量,基于說話人識別系統來實現,目前以 x-vector26、deep-ResNet-vector27等基于深度神經網絡構建的說話人識別系統成為主流。相似度估計 相似度估計根據提取的聲紋特征向量估計分割后的語音片段之間的相似度,構建相似度矩陣。常用的方法大多從說話人識別領域引入,如余弦相似度(Cosine Similarity)、概率線性判別分析(PLDA,Probabilistic L
107、inear Discriminant Analysis)等。聚類 聚類根據構建好的相似度矩陣將分割得到的語音片段進行分類,相似度高的歸為一類,即屬于同一說話人。常用的聚類方法有層次聚類(Hierarchical Clustering)、譜聚類(Spectral Clustering)和 K 均值算法(K-means)等。此外還有可選的前處理和后處理模塊,也可以有效改善說話人日志系統的性能。前處理模塊可以減小復雜聲學環境帶來的影響,如利用降噪、解混響等前端技術可以降低聲學環境中噪聲和混響對系統性能的影響。后處理模塊如重切割(Re-segmentation)和系統融合(System Fusion)
108、等也可以提高系統的準確性。聯想說話人日志系統 在多人對話的實際應用場景中,往往存在大量的混疊(Overlapped)語音片段,即同一時刻包含不止一個說話人的聲音,從這種混疊語音中無法準確提取單說話人的聲紋特征,從而影響后續距離計算模塊和聚類模塊的準確性,嚴重降低系統性能。針對混疊語音檢測(OSD,Overlapped 聯想智能語音技術白皮書 49 Speech Detection)問題,聯想設計的模塊化說話人日志系統在 OSD 模塊提出了基于雙說話人的特定說話人語音活動檢測(TS-VAD,Target Speaker Voice Activity Detection)算法35來降低說話人日志錯
109、誤率,提升系統性能。系統流程圖如圖 3-34 所示。在語音活動檢測、相似度估計以及聚類模塊均使用深度神經網絡的模型實現,在OSD模塊采用了自研的雙說話人TS-VAD模型。圖 3-34 聯想說話人日志流程圖 語音活動檢模塊使用對數梅爾譜作為聲學特征,ResNet34 作為前端特征提取器來得到幀級別的特征圖,雙向長短時記憶網絡(BiLSTM,Bi-directional LSTM)和全連接層構成分類器得到每一幀語音的存在概率。說話人聲紋提取模塊使用 ResNet34 作為前端模式提取器,從輸入的聲學特征中學習幀級別的特征表達,隨后使用全局統計池化(GSP,Global Statistic Pool
110、ing)層得到句子級別的特征向量,同時實現了變長輸入向固定長度向量的映射,最后使用全連接層進行深層特征提取得到固定維度的聲紋特征向量。在相似度估計模塊,常用的余弦相似度和 PLDA 方法均存在各自的局限性。余弦相似度只能顧及兩個向量之間的夾角大小,忽略了訓練數據的統計規律和先驗知識。而 PLDA 盡管充分利用了訓練數據的統計規律,但忽略了在說話人日志領域中鄰近向量高度相關的先驗信息。聯想說話人日志系統充分考慮到上述局限,設計了基于 LSTM 的相似度估計模塊,采用向量和序列的打分策略代替常規的向量和向量之間打分的方法,計算從長音頻中提取的每一段聲紋向量與完整序聯想智能語音技術白皮書 50 列之
111、間的相似度得分。得到相似度矩陣之后,采用復雜度較低、對樣本分布適應性相對更強的譜聚類方法對其進行聚類,得到初步的日志結果。雙說話人 TS-VAD 模型用于進行混疊語音活動檢測,模型如圖 3-35 所示。系統將雙說話人對話語音與一般多人對話語音進行混疊,提取混疊語音的聲紋特征向量作為模型輸入,模型輸出為雙說話人對話語音的活動檢測結果。在推理階段,選擇長音頻中講話時長最長的 N 個說話人兩兩組合,得到(2)對說話人的聲紋向量,依次送入訓練好的模型得到混疊區域的檢測結果,將預測概率高于設置閾值的區域標簽進行更新,得到最終的說話人日志結果。N 的大小根據具體數據確定。該雙說話人 TS-VAD 方法對長
112、音頻中說話人個數沒有限制,并且能夠準確檢測到包含任意兩說話人的混疊語音區域,對其標簽進行更新,顯著提高了說話人日志系統的性能表現。該系統在 VoxCeleb Speaker Recognition Challenge(VoxSRC)2021 36說話人日志賽道取得第一名。圖 3-35 聯想雙說話人 TS-VAD 模型 聯想智能語音技術白皮書 51 3.73.7 英語英語發音評估發音評估 在外語學習中,為了幫助學生更好地了解自己的實際發音水平,發音評估技術應運而生。通過將學生的發音在準確度、流利度等方面進行綜合評估,對學生的發音進行打分,為后續發音診斷提供重要依據,快速幫助學生提升口語發音水平。
113、發音評估技術以語音識別技術為基礎,通過對語音識別模塊的調整和改進,從語音中提取表征發音信息的特征,通過發音模型的訓練和識別后,根據打分對發音水平進行評估?;玖鞒虉D如圖 3-36:圖 3-36 發音評估基本流程圖 在訓練過程中,從訓練語料中提取發音特征用于模型訓練,得到發音模型。在評估過程中,測試語音通過前端處理提取發音特征,與發音模型進行匹配后給出打分,通過打分結果對發音水平進行評估。聯想發音評估系統 聯想在發音評估上采用 GOP(Goodness of Pronunciation)算法,并在解碼網絡、打分模型、解碼結果對齊和發音特征四個方面進行了改進。流程圖如圖 3-37:聯想智能語音技術
114、白皮書 52 圖 3-37 聯想發音評估系統流程圖 在訓練階段,從大量的標準發音語音訓練數據中提取特征進行模型的訓練,生成標準發音模型,我們也稱為 Golden 模型。在評估階段,待評測語音通過預處理和特征提取,借助標準發音模型、專家評分庫和現場錄音語音庫的信息與參考文本進行發音內容確認和發音得分計算,輸出評測分數、評測等級、錯誤檢測和診斷反饋等評估結果。由于學生在朗讀過程中難免會出現重讀漏讀等情況,所以強制對齊的方法會導致單詞的時間點不準確,從而影響發音得分特征 GOP 以及語速的計算等。我們借鑒 N 元文法,引入回退狀態,將回退狀態和表示各個詞匯的狀態相連接。通過此解碼網絡的優化使系統性能
115、顯著提升,與單獨使用 Unigram 相比,句錯誤率下降了 40%以上。識別結果與參考文本的對齊一般采用編輯距離的方法,但是標準的編輯距離計算中,三種編輯錯誤插入、刪除、替換的權重相同,這樣有可能導致對齊的錯誤。我們對替換錯誤按照字母的時長進行加權,能夠很好地緩解對齊錯誤的問題。標準 GOP 算法使用音素解碼器得到分母音素序列的結果,但是音素解碼的精度不高,結果不可靠,因此在聯想發音評估系統中采用了 F-GOP(Force-alignment GOP)算法進行改進,在聯想智能語音技術白皮書 53 分母計算中選取與對應分子音素相同的時間片段進行計算,可以提升特征提取的準確性。在打分模型選擇上,采
116、用 10%容錯一致度作為評價標準,同時采用 GOP 均值和標準差、語速、元音時長占比和正確讀出單詞占比等作為打分特征,分別在完整度、流利度、發音和總體評價四個評分維度上,對 logistics regression、SVM、MLP classification、linear regression 和 MLP regression 五種打分模型進行實驗,綜合確定 MLP regression 性能最佳,選為最終的打分模型。聯想智能語音技術白皮書 54 4 聯想智能語音服務平臺 4.14.1 服務平臺服務平臺整體架構整體架構 聯想研究院基于自研智能語音核心技術開發的智能語音服務平臺,不僅支持聯想內
117、部各種產品和設備上的語音應用,同時賦能不同垂直領域的智能化方案,如智能客服、智能會議、智慧教育等,踐行聯想“3S”戰略。圖 4-1 聯想智能語音服務平臺架構圖 聯想智能語音服務平臺架構圖如圖 4-1 所示。網絡代理層:負責承接外部語音請求轉發和分發工作,采用兩級分發的負載均衡機制,支持多任務、大規模、高并發的處理需求。業務控制層:作為平臺的中樞負責流程控制、資源管理和業務處理,肩負了負載均衡、引擎無感切換、數據清理、定時更新、異步業務處理等各種功能。存儲層:主數據庫負責存儲整個平臺的結構化數據,如用戶配置數據、技能控制相關數據;緩存數據庫則用來存儲和配置相關的控制業務流程的實時數據。聯想智能語
118、音技術白皮書 55 4.24.2 使用使用方法方法及特點及特點 使用聯想智能語音服務平臺,可遵循如下步驟:第 1 步:在網站 https:/ 完成賬號的基本注冊并登錄:第 2 步:進入服務信息頁面開通相對應的服務,確定提交:短語音識別:可以將 60 秒以下的音頻識別為文字。適用于語音對話、語音控制、語音輸入等場景。實時語音識別:采用邊上傳音頻邊獲取識別結果??梢詫⒁纛l流實時識別為文字,適用于長句語音輸入、音視頻字幕、直播質檢、會議記錄等場景。語音合成:可將文字信息轉化為聲音信息,適用于手機 APP、兒童故事機、智能機器人等多種應用場景。第 3 步:獲取 Lenovo-Key 和 Secret-
119、Key,進行接口調用操作,及相關配置。在開發資源頁面,有不同編程語言的示例可供下載。聯想語音服務平臺提供了語音識別、語音合成、英語評測的演示頁面,注冊賬號后也可以直接在瀏覽器中體驗。聯想智能語音服務平臺具備接口簡單、移植性好的特點,以 SaaS 方式為用戶提供個性化的語音識別、語音合成、聲紋識別、語義理解等能力,支持聯想中國市場的語音產品和業務。以下為應用示例,如圖 4-2 所示:聯想中國市場的所有手機、平板上預裝的樂語音 APP;MOTO 手機實時字幕 APP;聯想手機語音便簽 APP;聯想應用中心(樂商店)APP 的語音搜索功能;面向平板電腦的會議錄音轉寫軟件 AI 慧記軟件;聯想智能語音
120、技術白皮書 56 面向會議場景的聯想 thinkplus 會記軟件;聯想魔方客服系統的語音機器人解決方案;圖 4-2 聯想智能語音服務平臺應用示例 聯想智能語音技術白皮書 57 5 聯想智能語音產品和解決方案 本章節重點講述聯想智能語音核心技術的典型應用和實踐,將對核心技術的積累轉化為軟、硬件產品和垂直行業解決方案,以用戶為中心打造高性能、個性化的交互體驗,賦能行業客戶的智能化轉型。圖 5-1 聯想語音技術應用全景圖 聯想基于自研中文語音技術構建語音服務平臺,為企業內部和外部輸出語音服務能力,主要聚焦在消費業務、服務業務和商用業務幾大領域。消費領域主要包括手機、平板、PC、IOT 產品等設備上
121、的語音應用,包括語音助手和聲紋喚醒 AI 芯片;服務領域重點介紹聯想研究院與中國區服務團隊一起打造的聯想電話語音客服系統;最后在商用領域主要是對智能會議系統進行介紹。5.15.1 聯想聯想小樂小樂語音助手語音助手 2011 年,隨蘋果公司 iPhone 4s 發布的語音助手 Siri 是語音助手商業化的開端,現在語音助手已經成為各種智能設備最重要的人機交互入口之一。聯想在 2012 年開始投入手機語音助手“樂語音”的研發,2015 年聯想手機語音助手樂語音入駐軟件商店,是當時國內為數不多、支持語聯想智能語音技術白皮書 58 音助手自由下載的手機廠商。樂語音基于聯想自研的語音服務平臺和核心引擎,
122、在中國市場的全部聯想和 MOTO 品牌手機上進行預裝,作為手機熱門應用之一為消費者提供智能交互體驗。樂語音架構圖如圖 5-2 所示:圖 5-2 聯想樂語音架構圖 樂語音使用的主要喚醒詞是“小樂小樂”,在一些特定設備上也支持“Hello moto”,支持應用內喚醒。除了云端識別,亦支持設備端側離線語音識別,在斷網或弱網狀態下依然可以聽懂用戶指令。2020 年在小新平板電腦上樂語音再度升級,可支持桌面模式和多應用同時工作。作為手機上不可或缺的主要應用之一,樂語音的功能主要包括對話交互、應用操控和系統設置,支持三十多個垂類和各種主流手機 APP。用戶可以通過語音助手打電話、發短信、設置鬧鐘和日程、播
123、放視頻和音樂、信息查詢、導航、閑聊等。同時與系統底層深度融合,直接通過語音命令進行系統設置,包括開關機、開啟和退出應用、音量設置、清理內存等功能,讓用戶實現真正的“Hands free,eyes free”的交互體驗。聯想智能語音技術白皮書 59 圖 5-3 樂語音應用特性 5.25.2 基于基于 AIAI ChipChip 的聲紋喚醒的聲紋喚醒解決方案解決方案 2021 年 9 月聯想創新科技大會上發布了 LA2 智能嵌入式控制器,這是一款為 PC 打造的專用硬件,以運行智能算法、實現智能功能為目的。在這款芯片上通過軟硬件聯合優化,聯想自研的基于非對稱“注冊-確認”框架設計的聲紋喚醒算法,實
124、現了全球首款 PC,支持在關機和待機狀態下采用聲紋進行識別和喚醒的特性,喚醒詞為“小樂,小樂”,喚醒率超過 95%,功耗降低50%以上。非對稱“注冊-確認”聲紋識別框架是針對 AI Chip 進行的專門設計。PC 聲紋喚醒的流程圖如圖 5-4 所示,包括注冊和確認兩個流程。在注冊階段,用戶在開機狀態下通過 Smart Engine的設置界面進行操作,按照提示朗讀注冊文本,這一部分運行在系統 CPU 上,模型推理一次即可生成用戶聲紋;在確認階段,用戶在電腦關機或者待機狀態時通過說“小樂小樂”喚醒設備,此階段模型推理是運行在 Chip 上,為了實現最佳用戶體驗對功耗、計算延時要求嚴格,受硬件計算資
125、源的限制在確認階段無法采用過于復雜的模型結構,同時在識別性能上又要保證模型推理的高精準度。一般來說,聲紋注冊所用的模型和聲紋確認所用的模型是同一個(即對稱結構),才能保證用戶聲紋和模型是匹配的,而且模型越復雜精準度越高,但算力要求也更高。針對 PC上的應用方案,聯想提出了非對稱“注冊-確認”聲紋識別框架,在注冊階段利用 CPU 算力強的聯想智能語音技術白皮書 60 特點運行復雜模型,得到更有區分度的聲紋特征,而確認階段在 Chip 上運行簡單模型,通過改進訓練算法和訓練策略使得兩套模型具有一致性,相較于“雙小模型”的對稱結構性能提升 30%。圖 5-4 聯想基于 AI Chip 的聲紋喚醒方案
126、 聯想基于 AI Chip 的聲紋喚醒方案技術優勢主要體現在:采用基于深度神經網絡的兩階段聲紋喚醒技術,喚醒模塊確認用戶指令是正確的喚醒詞后再進行聲紋比對,只有特定用戶才能喚醒機器,通過兩項技術相互配合可以降低誤喚醒、保證安全性;與 AI Chip 深度融合,在 DSP(Digital Signal Processor)上進行特征提取部分 FFT(Fast Fourier Transform)的加速運算,在 NNEngine 上進行神經網絡模型推理計算,并針對硬件特性優化網絡結構、模型壓縮,在性能和算力之間達到最佳平衡點,做到低功耗、高性能;喚醒模型和聲紋模型聯合優化,通過共享特征、共用模型算
127、子的方式降低對算力需求。5.35.3 聯想智能座艙語音聯想智能座艙語音解決方案解決方案 聯想車計算業務重點布局智能座艙、智能駕駛和中央計算平臺等核心技術的創新研發等重點領域,將聯想集團技術積累與汽車智能化需求相結合,助力智能汽車產業鏈的高質量發展,共建智慧出行的美好未來。在智能座艙產品線,聯想車計算業務將依托強大的計算和技術實力,實現智能化、場景化的多模態融合交互體驗,高效連接人、車、萬物的移動終端深度挖掘用戶場景聯想智能語音技術白皮書 61 特征,打造全新概念智能座艙系統,為駕駛者提供更加智能,更加安全便捷的交互體驗。圖 5-5 聯想車計算展示圖 智能語音是智能座艙多模融合交互的重要方式。在
128、完全自動駕駛來臨之前,駕駛員在車內雙眼需要緊盯路面前方、雙手需要把控方向盤,語音交互是最安全、最方便的交互方式。聯想在 SIOT 設備端語音助手,如 PC、平板、手機等上面的實踐是智能座艙車載語音很好的起點,他們有如下相同點:技術鏈條 1.均包含語音硬件(Audio)和語音軟件(Voice)兩大塊;2.處理鏈條相同,包含語音前處理、識別理解、資源對接、結果反饋等;3.免觸免視、多模態等演進趨勢相同。系統平臺 1.智能座艙安卓平臺與平板手機相同;2.高通平臺語音硬件調校及優化路徑相同;3.均為端-云融合方案。應用模式 1.與部分 SIOT 應用模式相同,熱詞喚醒語音助手,開始交互;聯想智能語音技
129、術白皮書 62 2.均由設備操控、互聯網服務等應用構成;3.交互設計、屏幕布局與平板類似。與 SIOT 設備端語音交互相比,智能座艙對語音體驗的要求有所不同,體現在如下方面:使用場景及核心垂類 1.SIOT 設備控制與車載語音設備控制不同:日程鬧鐘應用 vs.導航音樂;2.SIOT 近講或家居遠場 vs.車載密閉帶噪空間多人交互;3.相比 SIOT,車載用戶位置固定,多模態交互更有優勢。語音交互閉環 1.車載語音喚醒或免喚醒交互是必選項;2.平板手機 PC 可跳轉三方應用網頁,車載必須體驗閉環;3.平板手機模式 GUI+VUI,車載必須達到免觸免視體驗。軟硬件深度整合 1.與 SIOT 相比,
130、車載音頻硬件投入更大;2.車載必須考慮聲源定位、回聲消除、噪聲魯棒;3.需考慮 Camera 等更多類型傳感器?;谝陨蠈χ悄茏撜Z音交互的理解,聯想車載語音解決方案有兩大技術組件:語音服務&SDK:提供基礎的語音相關能力,如聲學前端、語音喚醒、語音識別、語音合成、聲紋識別、語義理解、傳感器融合多模態等。車載場景化語音交互:提供面向車載場景的語音相關能力,如分音區語音交互、免喚醒多模態交互、全雙工語音交互、聲紋個性化交互、離在線融合、可見即可說等。該組件需要車載音頻硬件的支持。聯想智能語音技術白皮書 63 圖 5-6 聯想車載語音解決方案架構圖 這兩大技術組件會結合聯想車計算中央計算平臺和智能
131、座艙域控制器,針對智能座艙應用場景,進行端到端優化,即可以給主機廠提供方便的 HMI 適配定制能力,還能縮短項目交付周期。車載語音在聯想整體智能座艙方案中的位置如下所示:圖 5-7 聯想智能座艙和車載語音說明 5.45.4 聯想智能語音客服系統聯想智能語音客服系統 聯想魔方智慧客服系統(以下簡稱“魔方”)作為聯想服務數字化轉型的產物,由聯想服務二十多年的經驗積淀而來,智能機器人和客服系統均由聯想自主研發,擁有智能機器人、在線客服、呼叫中心、工單系統、智能運營、智能質檢六大功能板塊,能夠覆蓋售前、售中、售后的全場景客戶服務需求,滿足復雜的業務場景,為客戶提供基于業務的行業解決方案。聯想智能語音技
132、術白皮書 64 2020 年,聯想基于自研的、先進的語音技術開發了電話語音識別系統,基于語音識別、語音合成、聲紋識別、性別識別、情緒識別等基礎引擎,通過 HTTP 和 MRCP 服務接口與魔方業務系統對接,形成了完整的智慧客服解決方案。系統整體邏輯架構如圖 5-8 所示:圖 5-8 聯想智能客服系統邏輯架構圖 語音技術在智慧客服領域的應用主要包括三個方面:智能質檢、智能外呼和智能 IVR。智能質檢 支持靜默、聲調、音量和語速的檢測;支持語音情緒識別;支持實時、一句話和離線語音轉文本能力。智能外呼 可支持創建外呼任務及對話模型;支持人工實時監聽,并無縫接入;支持實時判斷用戶意圖,為坐席提供方案話
133、術,以及坐席端敏感詞、禁語的提醒。智能 IVR(自助語音機器人)實現用戶端可通過語音輸入,機器人判斷需求后轉接入相應隊列,或多次無法解答問題后自動轉接人工;實現用戶通過語音輸入,判斷問題并調取相應知識庫自助回答;播報打斷,可支持語音播報過程中,識別用戶語音并相應停止播報。聯想電話語音系統應用架構如圖 5-9 所示:聯想智能語音技術白皮書 65 圖 5-9聯想電話語音系統應用架構圖 為滿足客戶多樣化的業務場景需求,聯想電話語音識別系統具有以下能力:支持 8K、16K 采樣率語音 8K 采樣率是傳統電話信道語音傳輸的標準采樣率。移動通信進入到 4G 以后,4G 高清語音即 AMR-WB,采樣率為
134、16K,會逐步成為主流。聯想電話語音識別系統可同時支持 8K 和 16K 采樣率語音。支持實時轉寫、錄音文件識別 智能質檢中,短語音識別用于通話過程中表單輔助錄入等場景,長語音識別用于通話過程的實時分析,錄音文件識別用于離線將通話錄音轉成文本、并做進一步加工處理。智能外呼/智能IVR 中,短語音識別用于將用戶語音轉成文本、并做進一步加工處理。聯想電話語音識別系統支持實時轉寫、錄音文件識別,以滿足不同場景的需求。支持雙軌錄音 現代呼叫中心設備多數已支持雙軌錄音,即可將“客戶”和“坐席”的語音錄在不同的聲道里。聯想電話語音識別系統支持雙軌錄音轉寫,并可將雙軌錄音中的人人對話按時間信息對齊,方便后續
135、閱讀和進一步加工處理。支持靜默、音量和語速的檢測 聯想智能語音技術白皮書 66 輸出靜默、音量和語速信息,可豐富呼叫中心的質檢維度,并可從中進一步提煉出“客戶”和“坐席”的個性化信息。支持多種音色選擇 可支持適用于不同場景的多種男、女聲音色,音調、語速、韻律用戶可調。同時支持用戶對特定文本進行發音方式配置,例如“010”可由用戶指定發音為“零幺零”或者“零一零”??蓴U展聲紋識別 利用聲紋識別技術,能夠快速識別呼入者的身份,便于呼叫中心為呼入者提供最合適的服務,達到提高服務質量、提升服務價值的目的??蓴U展語音情緒識別 利用語音情緒識別技術,可解決錄音質檢、投訴校準、客戶情緒第一時間識別、客服代表
136、服務熱情實時提醒等問題。提供 HTTP 接口和 MRCP 接口 聯想電話語音識別系統提供的 HTTP 接口便于擴展和部署,MRCP 接口便于接入現有的呼叫中心設備。高性能和功能擴展能力 具有較高的性能,支持進行功能、容量的平滑擴容、無縫升級。定制化訓練能力 定制化訓練能力是指面向客戶的訓練師角色,在某些特定領域為了得到更好的語音識別效果,可通過不斷積累與目標領域匹配的文本語料進行模型訓練,形成數據、模型、業務的閉環迭代,不斷提升業務領域識別準確率。語音識別定制化訓練服務集成在聯想魔方平臺中,訓練服務的后臺調用流程如下圖所示:聯想智能語音技術白皮書 67 圖 5-10 聯想語音識別定制化訓練流程
137、說明 用戶可通過魔方平臺上傳目標領域的文本語料,提交模型訓練請求,模型訓練任務在后臺運行,支持用戶進行模型訓練狀態查詢和模型管理。待模型訓練完畢,用戶可以通過魔方平臺進行性能評估,將滿足要求的模型部署到識別引擎進行應用。同時,魔方客服平臺還支持語音標注、編輯、管理等功能,使用戶可以自主完成系統端到端閉環迭代優化的過程,是一套自適應人工智能(Adaptive AI)平臺。5.55.5 聯想聯想智能會議智能會議語音語音識別系統識別系統 會議是商務人士日常的重要場景,語音的記錄和轉寫可以極大提高辦公效率?;诼撓胫形闹悄軙h語音識別系統,聯想特別設計研發了面向平板電腦的會議錄音轉寫軟件 AI 慧記,
138、將用戶雙手從打字中解放出來,完全專注于當前的對話或會議。其核心體驗包括:1)實時錄音及轉寫,會話更沉浸,記錄更高效;2)轉寫過程中自由標記,記住重要時刻;3)AI 自動排版,錄音與文字分段映射聯動,會話回顧更便捷,即點即聽。另外,聯想平板電腦對音頻硬件做了針對性的調校,以提升 AI 慧記的使用效果。聯想智能語音技術白皮書 68 圖 5-11 聯想 AI 慧記軟件 針對企業用戶混合辦公場景的應用需求,聯想 thinkplus 打造了以會議平板為核心,技術、設備和服務一體化的混合辦公場景智能解決方案:圖 5-12 聯想 thinkplus 混合辦公場景 混合辦公場景解決方案中的 thinkplus
139、 會記軟件,采用了聯想自研的中文智能語音識別系統,通過軟硬件聯合調校,為用戶提供高效、準確的會議錄音轉寫功能。聯想智能語音技術白皮書 69 圖 5-13 thinkplus 會記軟件錄音轉寫功能 聯想智能會議語音識別系統主要基于自研的復雜場景語音識別技術,針對混合會議場景進行優化,適用于演講、會議、個人速記、訪談等需要實時語音轉換的應用場景,安靜場景下連續中文語音轉寫準確率超過 97%。根據用戶需求不同,可以以一體式語音識別(單機版)或分布式語音識別(多機版)等不同產品形態為用戶提供服務。與業界主流的智能語音識別產品相比,聯想智能會議語音識別系統具有以下技術優勢:支持語言:支持漢語普通話和中英
140、文混合兩種場景 提供定制化的用戶專業術語:支持按照用戶需求定制專業術語庫 基于超大規模的、高質量的語料庫進行訓練的引擎模型-數萬小時級別的聲學模型建模-TB 級別的語言模型建模-海量專業訓練數據,包括各種場景適配數據及實網數據,保證模型的高性能 實現較高的語音識別準確率:在近場識別場景下,語音識別準確率最高可達 97%以上 支持多種應用場景:支持在便攜設備、計算機和云環境中部署聯想語音識別系統 支持多種音頻格式:支持 WAV、MP3、MP4 等主流音頻格式的音軌文件 支持自適應語音識別:支持識別帶有特定口音的語音 提供端到端的優化能力:針對用戶的使用場景,定制優化方案,從而進一步提升產品的使用
141、體驗 聯想智能語音技術白皮書 70 支持擴展超低功耗語音監聽識別功能 支持擴展聲紋識別的相關功能 聯想語音識別系統整體架構如圖 5-14 所示:圖 5-14 聯想語音識別系統架構圖 語音數據采集 主要用于處理麥克風或語音文件提交的語音數據。該模塊采集麥克風輸入的實時語音數據,并將采集到的實時語音數據切分為標準的語音數據包,便于語音處理引擎對語音數據包進行識別處理。語音格式轉換與預處理 主要用于進行語音格式的轉換和語音識別的預處理。當收到語音文件后,該模塊對語音文件進行轉碼和分拆處理,得到標準的語音數據包,便于語音處理引擎對語音數據包進行識別處理。語音處理引擎 主要用于識別語音。當收到標準的語音
142、數據包后,該模塊會對語音數據包進行特征提取、語音解碼、字典搜索等操作,然后再輸出文字識別結果。文音映射 主要用于處理語音數據和識別文字的映射。該模塊會將已識別的文本和采集處理后的標準語音數據包進行映射連接。通過點擊輸出文本中的鏈接,用戶可以直接播放語音數據包。目前,聯想智能會議語音識別系統支持一體化和分布式方式部署。聯想智能語音技術白皮書 71 一體化語音識別方案 一體化語音識別方案適用于戶外、工廠等特殊環境的應用場景。如圖 5-15 所示,在一體化語音識別方案中,客戶端和語音處理引擎都運行在臺式機上,可以是筆記本、臺式機或者聯想迷你臺式機 TinyPC。即使在沒有網絡的情況下,本系統也支持語
143、音識別、語音記錄和語音轉換等功能。當回到有網絡訪問能力環境后,用戶可以把錄制的語音文件和保存的文本文件遷移或備份到數據中心。圖 5-15 語音識別系統集成一體化部署方案 分布式語音識別方案 分布式語音識別方案適用于大規模、高并發的應用場景。如圖 5-16 所示,在分布式語音識別方案中,客戶端運行在安裝了 Windows 7 及以上操作系統的計算機上,負責語音數據的采集和語音文字轉換的初步處理。同時,客戶端可以將聲波轉換為脈沖編碼調制數據,錄制、播放語音文件,保存語音識別文本文件,以及進行語音文件和文本文件的快速映射。語音處理引擎運行在服務器端,負責將語音轉換為文本。在服務器端,本系統支持通過語
144、音處理引擎(包括信號處理、聲學模型、語音模型和解碼器)將脈沖編碼調制語音數據轉換成文本。聯想智能語音技術白皮書 72 圖 5-16 終端與云端分布式部署 5.65.6 聯想聯想智慧教育英語智慧教育英語口語口語評估系統評估系統 進入教育信息化 2.0 時代,聯想基于多年來的智能化轉型實踐,形成了“端-邊-云-網-智”的新 IT 技術架構,將新技術方面的積累應用到教育領域,形成了一體化的聯想智慧教育解決方案。聯想基于自研的英語口語發音評估技術,實現了英語口語聽說平臺,賦能聯想智慧教育解決方案,助力 K12 教育中英語口語考試和訓練。隨著中、高考改革新政的推進,全國各地的英語考試都在逐步采用人機對話
145、模式,評分準確度與人工相當,穩定性高于人工評卷,大大節約時間和人力成本。在英語“聽說讀寫”四種能力的提升中,“說”的能力提升最難量化評測,因此采用 AI 語音技術的對話軟件實現自動評分既可以幫助老師檢驗學生口語水平,又可以在平時練習中幫助學生提升口語發音和表達能力。聯想智慧教育團隊基于聯想自研的英語口語發音打分技術開發的“聯想英語聽說模擬考試訓練系統”(以下簡稱“聯想英語聽說系統”)是一套軟硬件、平臺全自研一體化解決方案,支持模擬考試、作業練習和課堂教學幾大場景。聯想智能語音技術白皮書 73 圖 5-17 聯想英語聽說教學??加柧毾到y 發音評估系統實現對英語發音的多維度綜合評價:完整度:通過英
146、文 ASR 技術將語音識別為文本,和標準文本對齊,查看該段語音是否有錯讀、多讀、漏讀。準確度:通過優化的 F-GOP 算法,獲得更準確的發音質量評分。流利度:從語音中抽取多個維度特征,例如:重讀、停頓、語音語調等,實現對音段質量及韻律節奏的評測。開放題型準確性:采用基于深度學習的語義抽取和文本摘要技術,評價對話、回答問題、口語作文等開放題型的內容準確性。打分系統樣例如圖 5-18 所示,學生根據系統提示進行針對性訓練,不斷提高口語水平?!奥撓胗⒄Z聽說系統”最早在北京第二十中學、山東鄒城第六中學落地實踐,利用聽說軟件完成英語模擬考試,幫助教師實現 AI 教學。聯想智能語音技術白皮書 74 圖 5
147、-18 聯想英語聽說系統口語發音評分界面 聯想智能語音技術白皮書 75 6 智能語音技術展望 語音作為最自然的交互方式,承載著重要信息,語音信息的分析和處理技術會越來越深入地影響人類生活和生產活動。在需求的驅動下,隨著人工智能技術的不斷發展、硬件基礎設施不斷進步,語音技術的基礎性能必將持續增強,加速其在更多領域的商業化應用。6.16.1 多模多模語音交互語音交互達到達到“類人”“類人”水平水平 語音技術是泛在計算范疇最成熟的技術之一,可以將計算融入我們的日常生活。泛在計算是一種嵌入了多種感知的計算設備,并能根據情景來識別人的身體姿態、生理狀態、手勢、語音等,進而判斷人的意圖,并做出相應反應的具
148、有適應性的數字環境。在真實復雜場景下,語音、文本、圖像和視頻這些模態往往同時存在,靠單一模態的技術往往不能達到和人類交互能力同等的體驗,綜合利用語音、文本和圖像中的信息,才可以讓機器更好地知道“我在哪里”、“誰在和我說”、“我要和誰說”和“我該說什么”,因此跨模態、多模態融合技術能更好理解用戶、做出響應,會成為提升交互體驗的關鍵。用戶對語音交互的重要感知是聽到的聲音輸出。在真實世界里,聲音輸出不僅僅包括內容,可以聽出來是誰在說話,同樣可攜帶情緒、表達思考或轉折、重讀強調等。通過合成有情感的語音或者特定人的聲音可以讓用戶感受到更有溫度的交互,實現“千人千面”的產品特性。目前個性化語音識別、個性化
149、語音合成、個性化語音增強及個性化語音喚醒技術已經成為研究熱點,各種技術的綜合應用也將大大改進人機交互的體驗。隨著技術的演進,我們相信未來的語音交互,將可以以假亂真,讓用戶有在和一個“真人”對話的感覺。聯想智能語音技術白皮書 76 6.26.2 語音語音設備設備生態生態走向走向開放互聯開放互聯 2011 年蘋果 Siri 掀起了語音助手第一次熱潮,2017 年開始智能音箱成為主要驅動力、同時AI 熱潮興起。2020 年以后,國內外多個廠商主導的大型語音設備生態開始成型,語音在生活里無處不在,我們用語音查地址、查天氣、開關燈、控制掃地機器人等。但是,由于協議等限制,不同品牌的設備生態無法互通,消費
150、者一旦開始使用某一品牌,后續購買就局限于該品牌,對消費者及整個行業都不利。好的現象是,2022 年蘋果、谷歌、亞馬遜、三星等 200 多家廠商組成的智能家居聯盟-連接性標準聯盟,推出了 Matter 1.0 智能家居配件標準,以后不同生態的產品有望實現互聯互通。隨著語音設備生態的開放互聯,在智能家居、辦公、車載等多種場景中,未來的語音交互基于多設備協同、指令跨設備自由流轉,會給我們帶來超出預期的完美體驗。6.36.3 離線離線語音語音技術技術進一步進一步提升語音產品提升語音產品滲透率滲透率 受“端”側設備算力限制,當前大部分語音算法還是以云端計算為主,如語音識別、語音合成、語義理解等,將設備端
151、采集的語音數據經過本地算法初步處理后再上傳至云端進行復雜推理計算,計算結果再返回設備端進行呈現??紤]到用戶隱私、網絡穩定性、響應速度等因素的影響,設備端、邊緣側的離線語音處理能力成為人機交互過程中不可或缺的部分,尤其是在智能家居、車載以及高安全級別的場景下,對離線語音技術提出更高的要求。未來隨著 AI 芯片和語音算法能力不斷提高,語音交互必將覆蓋全場景應用,實現萬物皆智能。聯想智能語音技術白皮書 77 參考文獻 1 張筱蘭,王保論.智能語音技術在教學中的應用研究:現代教育技術,2011 年:91 2 未來的語音世界 中國智能語音市場分析,德勤,2021 3 Moulines E,Charpen
152、tier F.Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphonesJ.Speech communication,1990,9(5-6):453-467.4 Zen H,Tokuda K,Black A W.Statistical parametric speech synthesisJ.speech communication,2009,51(11):1039-1064.5 2018 人工智能行業創新情報白皮書,智芽網&灼識咨詢,2018 6 Park D S,C
153、han W,Zhang Y,et al.Specaugment:A simple data augmentation method for automatic speech recognitionJ.arXiv preprint arXiv:1904.08779,2019.7 Wang W,Cai D,Wang J,et al.The DKU-Duke-Lenovo System Description for the Fearless Steps Challenge Phase IIIC,Interspeech.2021:1044-1048.8 Hu Y,Liu Y,Lv S,et al.D
154、CCRN:Deep complex convolution recurrent network for phase-aware speech enhancementJ.arXiv preprint arXiv:2008.00264,2020.9 Higuchi T,Ito N,Yoshioka T,et al.Robust MVDR beamforming using time-frequency masks for online/offline ASR in noiseC,2016 IEEE International Conference on Acoustics,Speech and S
155、ignal Processing(ICASSP).IEEE,2016:5210-5214.10 Yoshioka T,Nakatani T.Generalization of multi-channel linear prediction methods for blind MIMO impulse response shorteningJ.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(10):2707-2720.11 Kinoshita K,Delcroix M,Kwon H,et al.Neural Ne
156、twork-Based Spectrum Estimation for Online WPE DereverberationC,Interspeech.2017:384-388 12 Higgins A,Wohlford R.Keyword recognition using template concatenationC,ICASSP85.IEEE International Conference on Acoustics,Speech,and Signal Processing.IEEE,1985,10:1233-1236.13 Hou J,Xie L,Fu Z.Investigating
157、 neural network based query-by-example keyword spotting approach for personalized wake-up word detection in Mandarin ChineseC,2016 10th international symposium on chinese spoken language processing(ISCSLP).IEEE,2016:1-5.14 Anguera X,Ferrarons M.Memory efficient subsequence DTW for query-by-example s
158、poken term detectionC,2013 IEEE International Conference on Multimedia and Expo(ICME).IEEE,2013:1-6.15 Sun M,Snyder D,Gao Y,et al.Compressed Time Delay Neural Network for Small-Footprint Keyword SpottingC,Interspeech.2017:3607-3611.16 Hannun A,Case C,Casper J,et al.Deep speech:Scaling up end-to-end
159、speech recognitionJ.arXiv preprint arXiv:1412.5567,2014.17 Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2:End-to-end speech recognition in english and mandarinC,International conference on machine learning.PMLR,2016:173-182.18 Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning wit
160、h neural networksJ.Advances in neural information processing systems,2014,27.聯想智能語音技術白皮書 78 19 Zhang Q,Lu H,Sak H,et al.Transformer transducer:A streamable speech recognition model with transformer encoders and rnn-t lossC,ICASSP 2020-2020 IEEE International Conference on Acoustics,Speech and Signal
161、 Processing(ICASSP).IEEE,2020:7829-7833.20 Ark S,Chrzanowski M,Coates A,et al.Deep voice:Real-time neural text-to-speechC,International Conference on Machine Learning.PMLR,2017:195-204.21 Shen J,Pang R,Weiss R J,et al.Natural tts synthesis by conditioning wavenet on mel spectrogram predictionsC,2018
162、 IEEE international conference on acoustics,speech and signal processing(ICASSP).IEEE,2018:4779-4783.22 Ren Y,Hu C,Tan X,et al.Fastspeech 2:Fast and high-quality end-to-end text to speechJ.arXiv preprint arXiv:2006.04558,2020.23 Kong J,Kim J,Bae J.Hifi-gan:Generative adversarial networks for efficie
163、nt and high-fidelity speech synthesisJ.Advances in Neural Information Processing Systems,2020,33:17022-17033.24 Zhao Z,Chen X,Liu H,et al.SPTTS:Parallel Speech Synthesis without Extra Aligner ModelC,2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA A
164、SC).IEEE,2021:864-869.25 Dehak N,Kenny P J,Dehak R,et al.Front-end factor analysis for speaker verificationJ.IEEE Transactions on Audio,Speech,and Language Processing,2010,19(4):788-798.26 Snyder D,Garcia-Romero D,Sell G,et al.X-vectors:Robust dnn embeddings for speaker recognitionC,2018 IEEE intern
165、ational conference on acoustics,speech and signal processing(ICASSP).IEEE,2018:5329-5333.27 He K,Zhang X,Ren S,et al.Deep residual learning for image recognitionC,Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.28 Campbell W M,Sturim D E,Reynolds D A,et al.
166、SVM based speaker verification using a GMM supervector kernel and NAP variability compensationC,2006 IEEE International conference on acoustics speech and signal processing proceedings.IEEE,2006,1:I-I.29 Kenny P,Stafylakis T,Ouellet P,et al.PLDA for speaker verification with utterances of arbitrary
167、durationC,2013 IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2013:7649-7653.30 Li Q,Yang L,Wang X,et al.Towards Lightweight Applications:Asymmetric Enroll-Verify Structure for Speaker VerificationC,ICASSP 2022-2022 IEEE International Conference on Acoustics,Speech and
168、Signal Processing(ICASSP).IEEE,2022:7067-7071.31 Desplanques B,Thienpondt J,Demuynck K.Ecapa-tdnn:Emphasized channel attention,propagation and aggregation in tdnn based speaker verificationJ.arXiv preprint arXiv:2005.07143,2020.32 Mesaros A,Heittola T,Virtanen T,et al.Sound event detection:A tutoria
169、lJ.IEEE Signal Processing Magazine,2021,38(5):67-83.33 Chen S,Gopalakrishnan P.Speaker,environment and channel change detection and clustering via the bayesian information criterionC,Proc.DARPA broadcast news transcription and understanding workshop.1998,8:127-132.34 Wang W,Lin Q,Cai D,et al.The DKU
170、-Duke-Lenovo System Description for the Third DIHARD Speech Diarization ChallengeJ.arXiv preprint arXiv:2102.03649,2021.35 Wang W,Cai D,Lin Q,et al.The DKU-DUKEECE-Lenovo system for the diarization task of the 2021 voxceleb speaker recognition challengeJ.arXiv preprint arXiv:2109.02002,聯想智能語音技術白皮書 7
171、9 2021.36 https:/www.robots.ox.ac.uk/vgg/data/voxceleb/interspeech2021.html 聯想智能語音技術白皮書 80 一般法律告知 本文件是為中國大陸地區提供的產品和服務而擬定的。聯想可能未在其他國家或地區提供本文件中提及的產品、服務或功能。聯想可能隨時停止某特定產品或服務的供應。產品和服務信息可能會被隨時修改,恕不另行通知。本文件內容僅供參考,不構成聯想的承諾或要約,我們將對文件內容盡合理努力進行審核,但不能排除文件可能仍然存在編輯或印刷錯誤。聯想按“現狀”提供本文件,不附帶任何保證,無論是明示的還是默示的,包括適銷性和適用于特
172、定用途的默示保證。如可適用法律不允許排除某些類型交易中的明示或默示的保證,則此時上述排除可能不適用于您。本文所述技術、產品及內容會不時更新,聯想研究院可能會隨時對本白皮書內容相應進行補充和修改,請讀者關注最新版本。如有任何意見或建議等請按本白皮書提供的聯絡方式與我們聯系。未經聯想事先書面授權,任何人士不得以任何方式對本文件的全部或任何部分進行復制、抄錄、刪減或將其編譯為機讀格式,以任何形式在可檢索系統中存儲、在有線或無線網絡中傳輸,或以任何形式翻譯為任何文字。本文件圖示及功能描述僅為說明目的提供,僅供參考,產品均以實物為準。本文件提及的某些部件、功能和特征僅用于說明目的,可能僅適用于某些特定型
173、號的產品。除非另有明確指明,否則本文件的任何內容都不是對產品具體規格和配置的描述。如需了解產品規格和配置,請查閱產品的相關規格文件或向產品銷售商咨詢。本文件的任何內容均不構成對聯想產品保修政策的修改。提及的技術性能指標基于特定環境測得,在其他運行環境中獲得的指標數據,可能會因設置和環境有差異。標稱存儲容量僅代表規格,因功能占用,實際可用容量低于標稱值。聯想智能語音技術白皮書 81 所提及的軟件及互聯網服務根據相關許可和/或服務協議使用。使用網絡功能可能消耗數據流量并發生服務費,由網絡服務商根據其標準收取。產品某些基于網絡的功能可能由第三方網絡服務支持,此類第三方服務包括其內容非由聯想提供、保證
174、和支持,并可能隨時終止或變更。使用第三方服務受第三方服務條款及隱私權政策的約束,此類條款可能與聯想的規定不同,使用相關功能和服務前,請仔細閱讀該第三方條款。第三方服務及其內容不受聯想控制,聯想對其不承擔任何責任。權利聲明 以下文字及徽標是聯想集團所屬企業的商標。聯想集團所屬企業的商標?!奥撓搿?、“Lenovo”提及的其他商號、產品或服務名稱可能是聯想或其他公司的商標并由其各自權利人擁有。版權所有2023 聯想集團所屬企業和/或其許可方,保留所有權利。MOTOROLA,M Logo,MOTO 以及 MOTO 系列商標系摩托羅拉商標控股有限公司的商標。Razr 系美國 Razor 公司的商標,依許可使用。