什么是語音交互技術?
語言是人際交流的最習慣、最自然的方式。語音交互技術是一種綜合技術,以語音為基礎信息載體,使得機器具有像人一樣“能聽會說、自然交互、又問必答”的交互能力。語音交互涵蓋語義分析和理解、知識構建和自我學習能力、大數據處理和挖掘等一系列新興技術領域。
語音交互過程包括四部分:語音采集、語音識別(ASR)、自然語言處理(NLP)和語音合成(TTS)。語音采集這個過程是完成音頻的錄入、采樣及編碼;語音識別完成語音信息到機器可識別的文本信息的轉化;自然語言處理根據語音識別轉換后的文本字符或命令完成相應的操作;語音合成則完成文本信息到聲音信息的轉換。
語音交互系統架構
用戶界面連接用戶和系統,用戶和系統的特征都決定著用戶界面的設計。語音交互系統包含以下三個主要部分,這三部分依次進行完成一輪人機交互。
(1)語音識別(Automatic Speech Recognition,ASR):系統通過麥克風陣列采集用戶的語音,并轉化成文本;
(2)自然語言處理(NLP)對語義進行解讀,并生成回復,有些研究中也將這一環節分為自然語言理解(Natural Language
Understanding,NLU)和自然語言生成(Natural Language Generation,NLG)。
(3)語音合成(Text to Speech,TTS):系統將回復的信息轉化成語音,并反饋給用戶。

全球語音交互技術發展現狀
自從1952年IBM開始研究機器對人類語音的識別檢測開始,對機器接收并理解語言的研究便從未停止。近20年來,語音交互界面取得了長足的發展,并將情感化的理解和表達引入了認知科學領域,以增強人工智能的類人化交流屬性。
在2000年日本研究者提出了一種基于聲學特征的語音情感識別方法,能夠在一定范圍內理解人類常見的8種情緒狀態:平靜、憤怒、傷感、快樂、憎惡、驚嘆、煩惱和恐懼。并且該方法適用于任何語言使用地區和任意性別、年齡的檢測,并基于該研究,開發了能夠感知用戶情緒信息的語音交互系統(VIS)。系統VIS可以與用戶進行互動,同時可以根據用戶的話語更改其響應狀態。
微軟研究院于2011年,提出
DNN—HMM(深度神經網絡和隱馬爾可夫模型)算法,經過海量數據的訓練,顯著提升在大量詞匯連續語音識別任務上的性能,DNN算法的出現使語音識別錯誤率首次實現大幅度降低。中國科大訊飛首個深度神經網絡中文語音識別系統上線基于DNN的聲紋識別率提升了30%。
2016年,Tacotron、WaveNet上線,實現遠場語音識別和喚醒,也在一定程度上提升了語音識別的準確率,此時的語音識別準確率在理論上可以達到98%,這也意味著智能語音技術市場化適用期的到來"。
得益于人工智能技術的快速發展,語音交互的核心環節(語音識別、語義理解和自然語言生成)取得了一系列突破性進展。在我國,截至目前約有超過250家企業參與智能語音語義市場,根據國家工業信息安全發展研究中心數據顯示,2018年底我國語音識別與自然語言處理技術合計申請專利6.1萬件,在總計申請專利44.4萬件的人工智能領域占比13.6%。
語音交互的優勢
由于真正意義上的信息內容交流和傳播是從語言產生開始的,語言能力是人類天生具備的交流能力,而文字和圖形符號信息交流則需要后天的學習和擴展理解,因此語音交互方式本身便具有極廣的用戶基礎?,F階段,語音交互作為人工智能領發展的重要方向之一,承用于具有一定開放性的使用場景,與傳統的命令行界面(CLI)以及圖形用戶界面(GUI)的交互方式相比,主要具備以下優勢:
1、操作方式便捷簡單
無需其他外設或身體接觸,語音操作貼近本能。
2、基本不消耗學習成本
語言是人天生具備的能力,無需過多后天特定學習,對于基本使用功能,無需指導用戶如何進行產品操作,并且沒有使用熟練度要求。
3、場景開放
可以在一定距離空間內完成交互行為,并且可以在親子等家庭場景下多人使用。
4、人性化
當聲音的表達語氣、語速、音色特征及語調態度不同的時候,其表達的信息情感指向也不同,可以更加親切直觀表現情緒,文字符號等反饋方式相對缺乏鮮活體驗。
5、無界面流程限制
傳統GUI交互方式需要預設邏輯路徑,用戶跟隨引導路徑進行操作和延申,并且需要根據數據信息量進行分層級顯示,語音對答可以直達用戶需求,無需多層級界面操作。
推薦閱讀:
《【精選】2021年全球車載語音交互龍頭Cerence競爭優勢及盈利能力分析報告(18頁).pdf》
《【研報】汽車行業智能駕駛系列專題:全球車載語音交互龍頭Cerence(CRNC)-210118(20頁).pdf》