《阿里技術:阿里機器智能:語音與信號處理技術精選專輯(38頁).pdf》由會員分享,可在線閱讀,更多相關《阿里技術:阿里機器智能:語音與信號處理技術精選專輯(38頁).pdf(38頁珍藏版)》請在三個皮匠報告上搜索。
1、 更多獨家干貨,掃碼進阿里云開發者社區獲取 本書著作權歸阿里巴巴集團所有, 未經授權不得進行轉載或其他任何形式的二次傳播。 | 序言 ICASSP (International Conference on Acoustics, Speech, and Signal Processing)是由 IEEE 信號處理協會(IEEE Signal Processing Society)組織的 語音研究領域的頂級會議之一,和 INTERSPEECH(Annual Conference of the International Speech Communication Association)并稱為國際語
2、音領域最 著名、 影響力最大的兩個學術會議。 相對于 INTERSPEECH 主要側重語音方面的 研究和應用,ICASSP 會議更加側重聲學、語音信號以及語音建模相關的學術討 論,包含了語音技術相關的各個方面,堪稱國際語音行業的一個年度盛會。在 ICASSP2018 中,阿里一共發表了 5 篇論文,分別涵蓋語音識別、語音合成以及 情感識別三個方向。 在論文 基于深層前饋序列記憶網絡, 如何將語音合成速度提升四倍? 中, 作者提出了一種基于深度前饋序列記憶網絡的語音合成系統, 該系統在達到與基 于雙向長短時記憶單元的語音合成系統一致的主觀聽感的同時, 模型大小只有后 者的四分之一,且合成速度是后
3、者的四倍,非常適合于對內存占用和計算效率非 常敏感的端上產品環境。 在論文為了更精確的情感識別,A-LSTM 出現了中,作者針對 LSTM 時 間依賴局限性問題, 提出了高級長短期記憶網絡 (advanced LSTM (A-LSTM)) 模型,利用線性組合,將若干時間點的本層狀態都結合起來,以打破傳統 LSTM 的這種局限性。在這篇文章中,我們將 A-LSTM 應用于情感識別中。實驗結果 顯示, 與應用傳統 LSTM 的系統相比, 應用了 A-LSTM 的系統能相對提高 5.5% 的識別率。 在論文為了讓機器聽懂“長篇大論”,阿里工程師構建了新模型中,作 者提出了一種改進的前饋序列記憶神經網
4、絡結構, 稱之為深層前饋序列記憶神經 網絡(DFSMN) ,進一步地將深層前饋序列記憶神經網絡和低幀率(LFR)技術 相結合構建了 LFR-DFSMN 語音識別聲學模型。該模型在大詞匯量的英文識別 和中文識別任務上都可以取得相比于目前最流行的基于長短時記憶單元的雙向 循環神經網絡(BLSTM)的識別系統顯著的性能提升。而且 LFR-DFSMN 在訓 練速度, 模型參數量, 解碼速度, 而且模型的延時上相比于 BLSTM 都具有明顯 的優勢。 在論文示范了 200 句后,我的聲音“雙胞胎”誕生了! 中,作者提出了 基于線性網絡的語音合成說話人自適應算法, 該算法對每個說話人學習特定的線 性網絡,
5、從而獲得屬于目標說話人的聲學模型,通過該算法,使用 200 句目標 說話人的自適應語料訓練的說話人自適應系統能夠獲得和使用 1000 句訓練的 說話人相關系統相近的合成效果。 在論文朋友,我能分享你的喜怒嗎?阿里語音情感識別框架揭秘中,作 者提出了一套包含多個子系統的復合情感識別框架。 這一框架會深入挖掘輸入語 音中與情感相關的各個方面的信息,從而提高系統的頑健性。 每年 INTERSPEECH 或者 ICASSP 都是語音學術界和工業界的一次盛會, 從 Deep Learning 在 2010 年左右引入語音領域,到現在幾乎所有的論文都直接 或者間接以神經網絡模型進行嘗試, 語音技術在最近幾
6、年發生了翻天覆地的變化。 近幾年貼近實際產品的論文越來越多, 語音領域的各大研究機構和知名公司 紛紛做出了更實際、更靠譜的工作,相關產品問題也隨之暴露和慢慢地被解決, 整個語音技術已經逐漸走到了實際應用的階段, 近幾年越來越多的語音設備產品 的問世和火爆也說明了這一點。我們將 ICASSP2018 會議上收錄的論文編輯成 冊,希望通過這個方式,更多的和學術界、工業界同行共同探討、共同進步,衷 心的希望語音技術繼續百家爭鳴、百花齊放,早日把靠譜的語音交互能力帶到各 行各業、帶進千家萬戶,真正地幫助到人們的工作和生活! 阿里巴巴高級算法專家 雷鳴 2019 年 3 月 于北京 目錄 基于深度前饋序
7、列記憶網絡,如何將語音合成速度提升四倍? . 1 研究背景 . 1 深度前饋序列記憶網絡 . 2 實驗. 4 結論. 6 為了更精確的情感識別,A-LSTM 出現了 . 7 研究背景 . 7 高級長短期記憶網絡 . 8 實驗. 10 結論. 11 為了讓機器聽懂“長篇大論” ,阿里工程師構建了新模型 . 12 研究背景 . 12 FSMN 回顧 . 13 DFSMN 介紹. 16 LFR-DFSMN 聲學模型 . 16 實驗結果 . 17 1)英文識別 . 17 2)中文識別 . 18 示范了 200 句后,我的聲音“雙胞胎”誕生了! . 20 摘要. 20 研究背景 . 21 算法描述 .
8、21 實驗. 23 結論. 25 朋友,我能分享你的喜怒嗎?阿里語音情感識別框架揭秘 . 26 研究背景 . 26 復合情感識別框架 . 27 實驗. 29 結論. 30 1 基于深度前饋序列記憶網絡,如何將語音合成速度提升四倍?基于深度前饋序列記憶網絡,如何將語音合成速度提升四倍? 作者:畢夢霄/Mengxiao Bi,盧恒/Heng Lu,張仕良/Shiliang Zhang,雷 鳴/Ming Lei,鄢志杰/Zhijie Yan 小嘰導讀:我們提出了一種基于深度前饋序列記憶網絡的語音合成系 統。該系統在達到與基于雙向長短時記憶單元的語音合成系統一致的主觀 聽感的同時,模型大小只有后者的四
9、分之一,且合成速度是后者的四倍, 非常適合于對內存占用和計算效率非常敏感的端上產品環境。 研究背景研究背景 語音合成系統主要分為兩類,拼接合成系統和參數合成系統。其中參數合成 系統在引入了神經網絡作為模型之后,合成質量和自然度都獲得了長足的進步。 另一方面,物聯網設備(例如智能音箱和智能電視)的大量普及也對在設備上部 署的參數合成系統提出了計算資源的限制和實時率的要求。 本工作引入的深度前 饋序列記憶網絡可以在保持合成質量的同時,有效降低計算量,提高合成速度。 2 我們使用基于雙向長短時記憶單元(BLSTM)的統計參數語音合成系統作為 基線系統。與目前主流的統計參數語音合成系統相似,我們提出的
10、基于深度前饋 序列記憶網絡(DFSMN)的統計參數語音合成系統也是由 3 個主要部分組成,聲 音合成器(vocoder),前端模塊和后端模塊,如上圖所示。我們使用開源工具 WORLD 作為我們的聲音合成器,用來在模型訓練時從原始語音波形中提取頻譜信 息、基頻的對數、頻帶周期特征(BAP)和清濁音標記,也用來在語音合成時完 成從聲學參數到實際聲音的轉換。 前端模塊用來對輸入的文本進行正則化和詞法 分析, 我們把這些語言學特征編碼后作為神經網絡訓練的輸入。后端模塊用來建 立從輸入的語言學特征到聲學參數的映射,在我們的系統中,我們使用 DFSMN 作 為后端模塊。 深度前饋序列記憶網絡深度前饋序列記
11、憶網絡 緊湊前饋序列記憶網絡(cFSMN)作為標準的前饋序列記憶網絡(FSMN)的 改進版本, 在網絡結構中引入了低秩矩陣分解, 這種改進簡化了 FSMN, 減少了模 型的參數量,并加速了模型的訓練和預測過程。 3 上圖給出了 cFSMN 的結構的圖示。對于神經網絡的每一個 cFSMN 層,計算過 程可表示成以下步驟經過一個線性映射, 把上一層的輸出映射到一個低維向量 記憶模塊執行計算, 計算當前幀之前和之后的若干幀和當前幀的低維向量的逐 維加權和把該加權和再經過一個仿射變換和一個非線性函數, 得到當前層的輸 出。三個步驟可依次表示成如下公式。 與循環神經網絡 (RNNs, 包括 BLSTM)
12、 類似, 通過調整記憶模塊的階數, cFSMN 有能力捕捉序列的長程信息。 另一方面, cFSMN 可以直接通過反向傳播算法 (BP) 進行訓練,與必須使用沿時間反向傳播算法(BPTT)進行訓練的 RNNs 相比,訓 練 cFSMN 速度更快,且較不容易受到梯度消失的影響。 對 cFSMN 進一步改進,我們得到了深度前饋序列記憶網絡(DFSMN)。DFSMN 利用了在各類深度神經網絡中被廣泛使用的跳躍連接 (skip-connections) 技術, 使得執行反向傳播算法的時候,梯度可以繞過非線性變換,即使堆疊了更多 DFSMN 層,網絡也能快速且正確地收斂。對于 DFSMN 模型,增加深度的
13、好處有兩 4 個方面。一方面,更深的網絡一般來說具有更強的表征能力,另一方面,增加深 度可以間接地增大 DFSMN 模型預測當前幀的輸出時可以利用的上下文長度, 這在 直觀上非常有利于捕捉序列的長程信息。具體來說,我們把跳躍連接添加到了相 鄰兩層的記憶模塊之間,如下面公式所示。由于 DFSMN 各層的記憶模塊的維數相 同,跳躍連接可由恒等變換實現。 我們可以認為 DFSMN 是一種非常靈活的模型。當輸入序列很短,或者對預測 延時要求較高的時候,可以使用較小的記憶模塊階數,在這種情況下只有當前幀 附近幀的信息被用來預測當前幀的輸出。而如果輸入序列很長,或者在預測延時 不是那么重要的場景中,可以使
14、用較大的記憶模塊階數,那么序列的長程信息就 能被有效利用和建模,從而有利于提高模型的性能。 除了階數之外,我們為 DFSMN 的記憶模塊增加了另一個超參數,步長 (stride) , 用來表示記憶模塊提取過去或未來幀的信息時, 跳過多少相鄰的幀。 這是有依據的,因為與語音識別任務相比,語音合成任務相鄰幀之間的重合部分 甚至更多。 上文已經提到,除了直接增加各層的記憶模塊的階數之外,增加模型的深度 也能間接增加預測當前幀的輸出時模型可以利用的上下文的長度, 上圖給出了一 個例子。 實驗實驗 在實驗階段,我們使用的是一個由男性朗讀的中文小說數據集。我們把數據 集劃分成兩部分,其中訓練集包括 386
15、00 句朗讀(大約為 83 小時),驗證集包 括 1400 句朗讀(大約為 3 小時)。所有的語音數據采樣率都為 16k 赫茲,每幀 5 幀長為 25 毫秒, 幀移為 5 毫秒。 我們使用 WORLD 聲音合成器逐幀提取聲學參數, 包括 60 維梅爾倒譜系數, 3 維基頻的對數, 11 維 BAP 特征以及 1 維清濁音標記。 我們使用上述四組特征作為神經網絡訓練的四個目標,進行多目標訓練。前端模 塊提取出的語言學特征,共計 754 維,作為神經網絡訓練的輸入。 我們對比的基線系統是基于一個強大的 BLSTM 模型, 該模型由底層的 1 個全 連接層和上層的 3 個 BLSTM 層組成,其中全
16、連接層包含 2048 個單元,BLSTM 層 包含 2048 個記憶單元。該模型通過沿時間反向傳播算法(BPTT)訓練,而我們 的 DFSMN 模型通過標準的反向傳播算法(BP)訓練。包括基線系統在內,我們的 模型均通過逐塊模型更新過濾算法(BMUF)在 2 塊 GPU 上訓練。我們使用多目標 幀級別均方誤差(MSE)作為訓練目標。 所有的 DFSMN 模型均由底層的若干 DFSMN 層和上的 2 個全連接層組成, 每個 DFSMN 層包含 2048 個結點和 512 個投影結點,而每個全連接層包含 2048 個結 點。在上圖中,第三列表示該模型由幾層 DFSMN 層和幾層全連接層組成,第四列
17、 表示該模型 DFSMN 層的記憶模塊的階數和步長。由于這是 FSMN 這一類模型首次 應用在語音合成任務中,因此我們的實驗從一個深度淺且階數小的模型,即模型 A 開始(注意只有模型 A 的步長為 1,因為我們發現步長為 2 始終稍好于步長為 1 的相應模型)。從系統 A 到系統 D,我們在固定 DFSMN 層數為 3 的同時逐漸增 加階數。從系統 D 到系統 F,我們在固定階數和步長為 10,10,2,2 的同時逐漸增 加層數。從系統 F 到系統 I,我們固定 DFSMN 層數為 10 并再次逐漸增加階數。 在上述一系列實驗中,隨著 DFSMN 模型深度和階數的增加,客觀指標逐漸降低 (越低
18、越好),這一趨勢非常明顯,且系統 H 的客觀指標超過了 BLSTM 基線。 6 另一方面,我們也做了平均主觀得分(MOS)測試(越高越好),測試結果 如上圖所示。主觀測試是通過付費眾包平臺,由 40 個母語為中文的測試人員完 成的。在主觀測試中,每個系統生成了 20 句集外合成語音,每句合成語音由 10 個不同的測試人員獨立評價。在平均主觀得分的測試結果表明,從系統 A 到系統 E,主觀聽感自然度逐漸提高,且系統 E 達到了與 BLSTM 基線系統一致的水平。 但是,盡管后續系統客觀指標持續提高,主觀指標只是在系統 E 得分的上下波 動,沒有進一步提高。 結論結論 根據上述主客觀測試,我們得到
19、的結論是,歷史和未來信息各捕捉 120 幀 (600 毫秒)是語音合成聲學模型建模所需要的上下文長度的上限,更多的上下 文信息對合成結果沒有直接幫助。與 BLSTM 基線系統相比,我們提出的 DFSMN 系 統可以在獲得與基線系統一致的主觀聽感的同時,模型大小只有基線系統的 1/4, 預測速度則是基線系統的 4 倍, 這使得該系統非常適合于對內存占用和計算效率 要求很高的端上產品環境,例如在各類物聯網設備上部署。 英文論文地址:英文論文地址:https:/arxiv.org/abs/1802.09194https:/arxiv.org/abs/1802.09194 7 為了更精確的情感識別,為
20、了更精確的情感識別,A-LSTM 出現了出現了 作者:陶斐/Fei Tao, 劉剛/Gang Liu 小嘰導讀:長短期記憶網絡(LSTM)隱含了這樣一個假設,本層的現 時狀態依賴于前一時刻的狀態。這種“一步”的時間依賴性,可能會限制 LSTM 對于序列信號動態特性的建模。本篇論文中,針對這樣的一個問 題,我們提出了高級長短期記憶網絡(advancedLSTM (A-LSTM)),利用 線性組合,將若干時間點的本層狀態都結合起來,以打破傳統 LSTM 的這 種局限性。在這篇文章中,我們將 A-LSTM 應用于情感識別中。實驗結果 顯示,與應用傳統 LSTM 的系統相比,應用了 A-LSTM 的系
21、統能相對提高 5.5%的識別率。 研究背景研究背景 LSTM 現在被廣泛地應用在 RNN 中。它促進了 RNN 在對序列信號建模的應用 當中。LSTM 有兩個輸入,一個來源于前一層,還有一個來源于本層的前一個時 刻。 因此, LSTM 隱含了這樣一個假設, 本層的現時狀態依賴于前一時刻的狀態。 這種 “一步” 的時間依賴性, 可能會限制 LSTM 對于序列信號動態特性的建模 (尤 8 其對一些時間依賴性在時間軸上跨度比較大的任務)。在這篇論文里,針對這樣 的一個問題,我們提出了 advancedLSTM (A-LSTM),以期打破傳統 LSTM 的這種 局限性。 A-LSTM 利用線性組合,
22、將若干時間點的本層狀態都結合起來, 因此不僅 可以看到”一步“以前的狀態,還可以看到更遠以前的歷史狀態。 在這篇文章中,我們把 A-LSTM 應用到整句話層級(utterance level)上的 情感識別任務中。傳統的情感識別依賴于在整句話上提取底端特征(low level descriptors)的統計數據,比如平均值,方差等等。由于實際應用中,整句話中 可能會有一些長靜音,或者是一些非語音的聲音,這種統計數據就可能不準確。 在這篇論文中,我們使用基于注意力模型(attention model)的加權池化 (weighted pooling)遞歸神經網絡(recurrent neural
23、network)來更有效地提 取整句話層級上的特征。 高級長短期記憶網絡高級長短期記憶網絡 A-LSTM 利用線性組合,將若干時間點的本層狀態都結合起來。這其中的線 性組合是利用與注意力模型(attention model)類似的機制進行計算的。具體公 式如下。 Fig 1 中 C(t)即為前面若干時間狀態的線性組合。這個線性組合以后的時 間狀態將被輸入下一時間點進行更新??梢韵胂?,每次的更新都不只是針對前一 時刻, 而是對若干時刻的組合進行更新。由于這種組合的權重是有注意力模型控 制,A-LSTM 可以通過學習來自動調節各時間點之間的權重占比。如果依賴性在 時間跨度上比較大,則更遠以前的歷史
24、狀態可能會占相對大的比重;反之,比較 近的歷史狀態會占相對大的比重。 9 Fig 1 Theunrolled A-LSTM 加權池化遞歸神經網絡加權池化遞歸神經網絡 Fig 2 Theattention based weighted pooling RNN. 在這篇論文中, 我們使用基于注意力模型的加權池化遞歸神經網絡來進行情 感識別(見 Fig 2)。這一神經網絡的輸入是序列聲學信號。利用注意力模型,我 們的神經網絡可以自動調整各個時間點上的權重, 然后將各個時間點上的輸出進 行加權平均 (加權池化) 。 加權平均的結果是一個能夠表征這一整串序列的表達。 由于注意力模型的存在,這一表達的提取
25、可以包含有效信息,規避無用信息(比 如輸入序列中中的一些長時間的靜音部分)。這就比簡單的計算一整個序列的統 計數值要更好(比如有 opensmile 提取的一些底端特征)。 為了更好地訓練模 型,我們在情感識別任務之外還添加了兩個輔助任務,說話人識別和性別識別。 我們在這個模型當中使用了 A-LSTM 來提升系統性能。 10 實驗實驗 在實驗階段,我們使用 IEMOCAP 數據集中的四類數據(高興,憤怒,悲傷和 普通)。這其中一共有 4490 句語音文件。我們隨機選取 1 位男性和 1 位女性說 話人的數據作為測試數據。其余的數據用來訓練(其中的 10%的數據用來做驗證 數據)。我們采用三個衡
26、量指標,分別為無權重平均 F-score(MAF),無權重平 均精密度(MAP),以及準確率(accuracy)。 我們提取了 MECC,信號過零率(zero crossing rate),能量,能量熵,頻 譜矩心(spectral centroid),頻譜流量(spectral flux),頻譜滾邊(spectral rolloff),12 維彩度向量(chroma vector),色度偏差(chroma deviation),諧 波比(harmonic ratior) 以及語音基頻,一共 36 維特征。對這些序列特征進行 整句話層級上的歸一化后,將其送入系統進行訓練或測試。 在這個實驗中,
27、我們的系統有兩層神經元層,第一層位全連接層(fully connected layer), 共有 256 個精餾線性神經元組成 (rectified linear unit)。 第二層位雙向長短期記憶網絡(bidirectionalLSTM (BLST)。兩個方向一共有 256 個神經元。之后即為基于注意力模型的加權池化層。最上方為三個柔性最大 值傳輸函數層,分別對應三個任務。我們給三個任務分配了不同的權重,其中情 感識別權重為 1, 說話人識別權重為 0.3, 性別識別為 0.6。 如果是應用 A-LSTM, 我們就將第二層的 BLSTM 替換成雙向的 A-LSTM,其他的所有參數都不變。這
28、里 的 A-LSTM 選取三個時間點的狀態作線性組合, 分別為 5 個時間點前 (t-5), 3 個 時間點前(t-3),以及 1 個時間點前(t-1)。實驗結果如下: 其中的 meanLSTM 與 A-LSTM 比較類似,唯一區別是,當我們為選取的幾個 時間點的狀態作線性組合的時候, 不是采用注意力模型, 而是簡單的做算術平均。 11 結論結論 與應用傳統 LSTM 的系統相比,應用了 A-LSTM 的系統顯示出了更好的識別 率。 由于加權池化過程是將所有時間點上的輸出進行加權平均,因此系統性能的 提升只可能是來源于 A-LSTM 更加靈活的時間依賴性模型,而非其他因素,例如 高層看到更多時
29、間點等等。并且,這一提升的代價只會增加了數百個參數。 原論文地址:原論文地址:https:/arxiv.org/pdf/1710.10197.pdfhttps:/arxiv.org/pdf/1710.10197.pdf 12 為了讓機器聽懂“長篇大論”,阿里工程師構建了新模型為了讓機器聽懂“長篇大論”,阿里工程師構建了新模型 作者: 張仕良、雷鳴、鄢志杰、戴禮榮 小嘰導讀:本研究我們提出了一種改進的前饋序列記憶神經網絡結構,稱 之為深層前饋序列記憶神經網絡(DFSMN)。進一步地我們將深層前饋序列記憶 神經網絡和低幀率(LFR)技術相結合構建了 LFR-DFSMN 語音識別聲學模型。該 模型在
30、大詞匯量的英文識別和中文識別任務上都可以取得相比于目前最流行的 基于長短時記憶單元的雙向循環神經網絡(BLSTM)的識別系統顯著的性能提 升。而且 LFR-DFSMN 在訓練速度,模型參數量,解碼速度,而且模型的延時上 相比于 BLSTM 都具有明顯的優勢。 研究背景研究背景 近年來, 深度神經網絡成為了大詞匯量連續語音識別系統中的主流聲學模 型。 由于語音信號具有很強的長時相關性,因而目前普遍流行的是使用具有長時 相關建模的能力的循環神經網絡(RNN),例如 LSTM 以及其變形結構。循環神經 網絡雖然具有很強的建模能力,但是其訓練通常采用 BPTT 算法,存在訓練速度 緩慢和梯度消失問題。
31、我們之前的工作,提出了一種新穎的非遞歸的網絡結構, 13 稱之為前饋序列記憶神經網絡(feedforward sequential memory networks, FSMN) , 可以有效地對信號中的長時相關性進行建模。 相比于循環神經網絡, FSMN 訓練更加高效,而且可以獲得更好的性能。 本論文,我們在之前 FSMN 的相關工作的基礎上進一步提出了一種改進的 FSMN 結構,稱之為深層的前饋序列記憶神經網絡(Deep-FSMN, DFSMN)。我們通 過在 FSMN 相鄰的記憶模塊之間添加跳轉連接(skip connections),保證網絡 高層梯度可以很好地傳遞給低層, 從而使得訓練
32、很深的網絡不會面臨梯度消失的 問題。 進一步的,考慮到將 DFSMN 應用于實際的語音識別建模任務不僅需要考慮 模型的性能,而且需要考慮到模型的計算量以及實時性。針對這個問題,我們提 出將 DFSMN 和低幀率(lower frame rate,LFR)相結合用于加速模型的訓練和 測試。 同時我們設計了 DFSMN 的結構,通過調整 DFSMN 的記憶模塊的階數實現時 延的控制,使得基于 LFR-DFSMN 的聲學模型可以被應用到實時的語音識別系統 中。 我們在多個大詞匯量連續語音識別任務包括英文和中文上驗證了 DFSMN 的 性能。 在目前流行的 2 千小時英文 FSH 任務上,我們的 DF
33、SMN 相比于目前主流的 BLSTM 可以獲得絕對 1.5%而且模型參數量更少。在 2 萬小時的中文數據庫上, LFR-DFSMN 相比于 LFR-LCBLSTM 可以獲得超過 20%的相對性能提升。而且 LFR- DFSMN 可以靈活的控制時延,我們發現將時延控制到 5 幀語音依舊可以獲得相比 于 40 幀時延的 LFR-LCBLSTM 更好的性能。 FSMNFSMN 回顧回顧 最早提出的 FSMN 的模型結構如圖 1(a)所示,其本質上是一個前饋全連接 神經網絡,通過在隱層旁添加一些記憶模塊(memory block)來對周邊的上下文 信息進行建模,從而使得模型可以對時序信號的長時相關性進
34、行建模。FSMN 的 提出是受到數字信號處理中濾波器設計理論的啟發:任何無限響應沖擊 (Infinite Impulse Response, IIR)濾波器可以采用高階的有限沖擊響應 (FiniteImpulse Response, FIR)濾波器進行近似。從濾波器的角度出發,如 圖 1(c)所示的 RNN 模型的循環層就可以看作如圖 1(d)的一階 IIR 濾波器。 而 FSMN 采用的采用如圖 1(b)所示的記憶模塊可以看作是一個高階的 FIR 濾波 14 器。從而 FSMN 也可以像 RNN 一樣有效的對信號的長時相關性進行建模,同時由 于 FIR 濾波器相比于 IIR 濾波器更加穩定,
35、因而 FSMN 相比于 RNN 訓練上會更加 簡單和穩定。 圖 1. FSMN 模 型結構以及和 RNN 的對比 根據記憶模塊編碼系數的選擇,可以分為:1)標量 FSMN(sFSMN);2)矢 量 FSMN(vFSMN)。sFSMN 和 vFSMN 顧名思義就是分別使用標量和矢量作為記 憶模塊的編碼系數。sFSMN 和 vFSMN 記憶模塊的表達分別如下公式: 以上的 FSMN 只考慮了歷史信息對當前時刻的影響,我們可以稱之為單向的 FSMN。 當我們同時考慮歷史信息以及未來信息對當前時刻的影響時,我們可以將 單向的 FSMN 進行擴展得到雙向的 FSMN。雙向的 sFSMN 和 vFSMN
36、記憶模塊的編碼 公式如下: 15 這里和分別代表回看(look-back)的階數和向前看(look-ahead)的階 數。我們可以通過增大階數,也可以通過在多個隱層添加記憶模塊來增強 FSMN 對長時相關性的建模能力。 圖 2. cFSMN 結構框圖 FSMN 相比于 FNN,需要將記憶模塊的輸出作為下一個隱層的額外輸入,這樣 就會引入額外的模型參數。隱層包含的節點越多,則引入的參數越多。我們通過 結合矩陣低秩分解(Low-rank matrix factorization)的思路,提出了一種改 進的 FSMN 結構,稱之為簡潔的 FSMN(Compact FSMN,cFSMN)。如圖 2 是
37、一個第 個隱層包含記憶模塊的 cFSMN 的結構框圖。 對于 cFSMN,通過在網絡的隱層后添加一個低維度的線性投影層,并且將記 憶模塊添加在這些線性投影層上。進一步的,cFSMN 對記憶模塊的編碼公式進行 了一些改變,通過將當前時刻的輸出顯式的添加到記憶模塊的表達中,從而只需 要將記憶模塊的表達作為下一層的輸入。這樣可以有效的減少模型的參數量,加 快網絡的訓練。具體的,單向和雙向的 cFSMN 記憶模塊的公式表達分別如下: 16 DFSMNDFSMN 介紹介紹 圖 3. Deep-FSMN (DFSMN)模型結構框圖 如圖 3 是我們進一步提出的 Deep-FSMN(DFSMN)的網絡結構框圖,其中左 邊第一個方框代表輸入層,右邊最后一個方框代表輸出層。我們通過在 cFSMN 的 記憶模塊(紅色框框表示)之間添加跳轉連接(skip connection),從而使得 低層記憶模塊的輸出會被直接累加到高層記憶模塊里。這樣在訓練過程中,高層 記憶模塊的梯度會直接賦值給低層的記憶模塊, 從而可以克服由于網絡的深度造 成的梯度消失問題,使得可以穩定的訓練深層的網絡。我們對記憶模塊的表達也 進行了一些修改,通過借鑒擴張(dilation)卷積3的思路,在記憶模塊中引 入一些步幅(stride)因子,具體的計算公式如下: 其中表示第層記憶模塊第 t 個時刻