1 什么是語音識別技術
語音識別——人機交互的入口,指的是機器或者是程序能夠接收、解釋聲音甚至理解和執行人類口頭命令的能力。在當前的大數據和智能化時代,更多的場景在設計個性化的交互界面時,采用對話的交互形式。
一個完整的對話交互構成包括“聽懂——理解——回答”三個步驟,三者構成整個對話交互的閉環,其中,“聽懂”需要語音識別(Automatic Speech
Recognition, ASR)技術;“理解”需要自然語言處理(Natural Language Processing,
NLP)技術;“回答”需要語音合成(Text To Speech,
TTS)技術。三個步驟環環相扣,相輔相成。語音識別技術是對話交互的開端,是保證對話交互高效準確進行的基礎。
2 語音識別技術的發展歷程
20 世紀 50
年代語音技術開始出現,步入萌芽階段,現如今主流算法模型已經歷經模板匹配階段、模式和特征分析階段、概率統計建模階段和現在主流的深度神經網絡階段。當前,語音識別主流廠商主要使用端到端算法,在理想實驗環境下語音識別準確率可高達
98%以上。

1950s-1960s模物匹配階段:分析階段萌芽階段:系統只能理解有限的詞匯以及內存中的數字。
1970s-1980s模式和特征分析階段:是起步階段,系統可以通過對聲音模式和特征設置參數,并給予大量詞匯進行連續語音識識別。
1990s-2010年概率統計建模階段:是成長期,概率統計語言模型成為語音識別主流算法。
2010年至今是深度神經網絡階段:AI與機器學習的發展使得深度神經網絡應用到語音識別過程中,基于LPC. PLP. MFCC. Fbank.
語譜圖等聲學特征進行識別。
3 語音識別技術的方法
語音識別技術常用的方法有如下四種:基于語言學和聲學的方法、隨機模型法、利用人工神經網絡的方法、概率語法分析。其中最主流的方法是隨機模型法。
4 語音識別技術的在公檢法的應用
(1)智慧庭審:采用語音識別、語音合成技術,結合針對法律業務的專門優化實現庭審紀律自動播報、庭審筆錄自動生成、庭審筆錄音頻即時回聽及快速檢索等功能。
(2)電信網絡反欺詐:多采用聲紋識別、語音識別、語音合成、自然語言理解等技術,會自動提取聲紋井與黑名單做比對,提示重點人員可疑行為,對語音內容關鍵詞識別動態預警,提示可疑案件和犯罪意圖。
(3)虛擬法官:采用語音合成和人機交互等技術,通過語音合成和虛擬形象,在互聯網訴訟平臺上,以虛擬AI形象同當事人進行初步溝通,協助真人法官
(4)聲紋研判:采用聲紋鑒定、語音識別和大數據分析等技術,能夠協助鑒定人員自動在音頻數據中檢索出特的定人員及相似的音素進行語自動比對,縮小偵查范圍。
(5)智能接警:采用語音識別和自然語言理解、對話管理等技術,通過窗口報警自助錄入系統轉寫報警人敘述的警情信息并導入筆錄系統提高接警效率。
(6)警務智能語音服務;采用語音識別和大數據等技術,針對公安領域詞匯進行專門優化,提供語音輸入法和機器翻譯等服務。
推薦閱讀:《AIIA:中國聲紋識別產業發展白皮書2.0(39頁).pdf》
《弗若斯特沙利文:人工智能行業中國AI語音識別市場研究報告(19頁).pdf》
《JeffLouviere-全球語音技術趨勢和洞察報告英文版-2017-58頁(58頁).pdf》