《AI在叮咚智能音箱中的演進和應用.pdf》由會員分享,可在線閱讀,更多相關《AI在叮咚智能音箱中的演進和應用.pdf(57頁珍藏版)》請在三個皮匠報告上搜索。
1、AI在叮咚智能音箱中的演進和應用智能音箱市場分析智能音箱中的AI技術智能音箱的發展趨勢討論環節智能音箱市場分析智能音箱中的AI技術TTS語音合成VAD語音激活檢測語音喚醒聲紋翻譯和評測TTS語音合成將文本轉換成聲音可播放,使用的場景非常多TTS在近幾年的發展狀況:能提供TTS合成技術的廠家越來越多制作一個TTS發音人的成本越來越低,包括研發成本和時間成本TTS合成技術本身,在自然度和流暢度上,也有不斷的進步關于TTS大家關注的焦點關注點自然音質多選擇甜美TTS合成在未來的發展用自己的聲音來作為TTS發音人目前已能做到讀一篇2000字的文章,即可生成這個人的音庫。技術已經成熟,很快就會應用到智能
2、音箱中。存在的問題:用戶得有點耐心,將這2000字讀完是亮點、賣點,但不少用戶可能更喜歡預置的甜美的聲音用戶提供的語料非常少,提取的特征有限,相對于深度定制,人聲的相似度要略差一些。帶情感的TTS合成文本是有場景的,例如新聞、笑話、恐怖小說、武俠小說等。在指定使用場景的情況下,用特定的節奏、韻律和語氣來合成是沒問題的需要解決的問題是,能否自動甄別出使用場景,不然可能就出笑話基于大數據的情感分析技術VAD語音激活檢測語音激活檢測,又稱端點檢測,分為前端點和后端點前端點:檢測語音什么時候開始不再是靜音??捎糜谂袛嗳碎_始說話。后端點:檢測語音什么時候開始從有聲音變成是靜音??捎糜谂袛嗾f話結束。端點檢
3、測的意義:捕捉有效的音頻,再進行后續的處理,減少不必要的數據處理。VAD目前的現狀和發展基于聲音能量的VAD疊加人聲檢測和基于用戶意圖的動態VAD能量VAD改由硬件實現背景:目前很多芯片產品也冠了AI之名,將之前在軟件層做的算法放到了硬件層,如VAD、CNN,加速算法的執行,減小CPU的消耗基于人聲檢測和用戶意圖的動態VAD前端點和后端點超時時間的設置嚴重關乎用戶體驗如何來解決有噪音環境下的端點檢測問題信息的及時反饋,不一定要等用戶把話都說完了再輸出識別結果語音喚醒用戶說指定的喚醒詞,設備識別出之后才能進行后續的識別和操作。為什么要有喚醒?喚醒引擎必須要是本地引擎,而不能是云端的。智能音箱如果
4、要支持喚醒,就意味著持續的錄音,如果在家中放個音箱,它在不斷的進行錄音和上傳到別人的服務器上,這是件多么恐怖的事情。亞馬遜智能音箱竊聽風波語音喚醒技術的現狀支持語音喚醒的音箱,市面上多見的有2麥、3麥、4麥、6麥、7+1麥。在開放的環境下,Mic的數量越多,可喚醒的距離越遠、識別的效果越好。但考慮到結構等方面的因素,不能完全看Mic的數量來評價喚醒效果的好壞。麥克風陣列的作用聲源定位回聲消除噪聲抑制增益調節主流產品的喚醒效果對比我們的堅持為了保證喚醒和識別效果,主流產品堅持使用6麥或7+1麥陣列充分做好結構的驗證,產品長什么樣,不完全是ID說了算,確保結構設計不會影響到喚醒和識別效果做好硬件的
5、驗證,確保錄音的品質(包括錄音音質、各通道的同步性等)大量的數據分析,針對誤喚醒和未喚醒算法層面持續迭代,第三代基于CNN模型的喚醒和聲學處理算法,通過對大量樣本的離線處理和效果分析,形成了很好的處理效果喚醒詞的自定義目前很多款智能音箱,都有固定的喚醒詞,諸如天貓精靈、小愛同學、若琪為了保證較好的喚醒效果,廠商也會在喚醒詞的選擇上下足功夫從用戶角度:好記、朗朗上口從數據角度:容易喚醒、不容易誤喚醒、日常生活中不太容易聽到從廠商角度:兼顧以上兩點自定義喚醒詞,用戶可以給音箱設置自己喜歡的喚醒詞,比方可以把叮咚音箱的喚醒詞設置成天貓精靈。我們有統計過,對于支持設置自定義喚醒詞的設備,有60%以上的
6、用戶修改了喚醒詞。自定義喚醒詞的技術難點自定義喚醒訓練模型的數據喚醒門限的設定喚醒詞的評估設備運算能力基于泛化技術形成數據模型為了保證喚醒率,喚醒詞往往需要百萬級別的訓練數據才能生成模型。自定義喚醒詞,沒有現成的訓練數據,要依托大數據的技術、直接泛化成相應的數據模型,來保證訓練數據的數量。自動的閾值調整目前業界的喚醒方案基本上都涉及調節喚醒的閾值閾值設置高了,喚醒率低,閾值設置低了,誤喚醒又多,需要選取一個平衡點常規做法:先選定喚醒詞,然后在一個大的測試集上進行調節常規方案不適合自定義喚醒的實時需求,為此我們研發了一套穩定的閾值設置方案,針對不同喚醒詞自動設置喚醒閾值。喚醒效果評價機制并非所有
7、的詞語都適合做喚醒詞,我們引入量化的客觀標準,通過評星級的方式來告訴用戶喚醒詞的級別,引導用戶作出正確選擇有哪些標準:p4-6個字p音節覆蓋盡量多p相鄰音節要規避p太經常說的詞語盡量規避,誤喚醒的概率偏高工程化過程中的算法優化Whyp自定義喚醒的算法由于引入了新的數據模型,導致運算量大幅上漲p優化算法本身,尤其是降噪和回聲消除,8個Mic就涉及到8路的降噪和回聲消除Howp算法定點化p加入前置的激活檢測,提高語音數據的準入標準,減少數據的處理量,避免無用的數據計算。喚醒詞模型的不斷迭代生成的自定義喚醒詞模型,在用戶使用的過程中有條件對其進一步優化深度定制的喚醒詞效果優于自定義,一個重要原因是使
8、用大量真實的語料進行了訓練使用自定義喚醒詞時的喚醒語料,可用于優化喚醒詞模型自定義喚醒詞使用的次數越多,積累的語料越多,喚醒效果越好多喚醒詞市面上的智能音箱,活動的喚醒詞往往只有1個,同一時刻只能對一個詞做出響應多喚醒詞的實現絕不是機械的疊加喚醒詞的簡單疊加,可能會降低主喚醒詞的效果,同時大幅增加了處理的數據量不喚醒而直接語音操控歌曲播放,每家的實現方式可能有所不同,叮咚是采用1個主喚醒詞+多個副喚醒詞的形式叮咚對于常用的幾個喚醒詞,使用了大量的樣本進行優化和驗證,確保對主喚醒詞的效果影響很小語音喚醒技術在未來的發展更多基于2-4麥的產品喚醒時定位不再標配自定義喚醒成為標配喚醒效果的不斷提升聲
9、紋聲紋,類似于指紋,可以代表一個人的特征,在較長的時間內是相對穩定的。兩大分類p文本相關p文本無關文本相關根據特定的文本建立模型,用戶必須說這個特定的文本才能進行匹配特點:開發門檻低,但用戶必須說特定的詞句文本無關不強求說話的內容,用戶說什么詞句都可以進行模式匹配特點:模型建立困難,開發門檻高,但使用方便,應用的場景廣泛目前主流技術路線的選擇基本都采用了文本相關的方案注冊時都采用固定的詞句-喚醒詞喚醒時觸發聲紋相關的邏輯使用聲紋時面臨的問題閉集和開集閉集假定使用音箱的人一定進行過聲紋的注冊如果使用場景符合假定的前提,可以很準確的區分說話人,準確率能達到95%以上可以把門限調的較低,以此來提高準
10、確率原則:寧錯勿漏開集沒有前提假設,使用音箱的可能是陌生人,從未進行過聲紋注冊當匹配門限較低時,可能會出現冒認。一個陌生人可能會被認為是已注冊的人為了避免冒認,人為的提高門限門限提高,匹配率下降原則:寧漏勿錯距離設備1m,有85db的背景噪音和單曲循環播放歌曲場景下的召回率測試同等環境下,增加事先未注冊過的人進行冒認率測試如何權衡開集、閉集的問題提高注冊時特征采集的門檻交互上提示保持環境安靜能喚醒能量達標語音識別匹配程度達標提高注冊時音頻處理效果增強的降噪,充分利用麥克風陣列的優勢,提高信噪比更精確的音頻切分,前后誤差控制在50ms內,精度遠遠超出常規的VAD錄音數據采集,對樣本進行人工剪裁、
11、標注使用人工剪裁的音頻進行模型訓練對原樣本使用模型進行剪裁相對于人工剪裁的前后誤差均在50ms內的,認為符合要求模型修正聲紋特征的持續更新注冊時進行第一次特征采集,使得功能可用使用時對于高匹配度、高品質的音頻保留其特征,可用于下一次模式匹配類似于自定義喚醒技術,都有持續學習的過程。評估合適的門限通過采集大量的錄音數據,和人工標注的方法,得出幾種場景下的門限:高安全性:寧漏勿錯,但不能漏的很離譜高匹配率:寧錯勿漏,但不能錯的很夸張應用場景的劃分確定產品定位,非常嚴謹(軍工級?)or 自娛自樂不同場景的要求不同,例如用于支付驗證的場景一定要求很高。不同的場景采用不同的門限。聲紋支付目前的聲紋技術如
12、果用于支付驗證,有點冒險。當前采用的往往是基于固定語言模型的聲紋方案。固定語句有錄音回放的風險。追求匹配率,會喪失基本的安全性?;诼暭y及特征的個性化推薦基于聲紋的個性化推薦。在喚醒時識別出發音人,并根據用戶的使用記錄,做特定的個性化推薦?;谛詣e、年齡特征的個性化推薦。在未進行聲紋注冊時,也能根據發音人的男女老幼信息做相關的推薦。聲紋技術在音箱上應用的趨勢過渡到文本無關的方案上來,或者是文本無關、文本相關都同時具備由于技術本身的限制,可能會增加聲紋注冊的錄音時長聲紋支付和語音購物在充分優化用戶體驗后,用戶的熱度會增加廠商會基于聲紋的識別,加強對不同的用戶推個性化的服務智能音箱與教育中英文翻譯
13、p語音識別p翻譯中英文評測外語學習智能音箱的發展趨勢國內在相當長一段時間內,智能音箱的主要角色還是播放音樂的音箱基于音箱開放平臺的第三方應用越來越多帶屏幕和攝像頭會成為新的趨勢人臉識別技術的引入AR的應用智能音箱主要是音箱Amazon Dot的成功短期內在國內難以復制價格戰下,售價拼到了百元以下,藍牙音箱的市場受到沖擊版權在國內受到重視,內容問題成為了頭等大事用戶最關注的需求,是資源點播能有更好的體驗國內資源內容的現狀:p精品內容的版權掌握在少數人手里p每一家的版權都覆蓋不全,只是量多量少的問題p即使讓接入,你不一定能得到metadatap接口受限,提高用戶體驗還需下苦功夫優化資源的點播體驗,
14、我們要做的p投入人力,給熱門歌曲打上標簽(一首歌可能有多個標簽)p云端記錄用戶的播放記錄,通過歌名來匹配歌曲標簽,分析用戶喜好p做好歌曲的推薦,用戶不用費腦筋來想我要聽什么基于性別年齡信息,做好歌曲的推薦基于聲紋做用戶畫像,即使一臺設備有多個人用,也有針對性的做歌曲推薦根據歌曲的標簽,做好歌曲的關聯推薦基于智能音箱的第三方開發語音識別多輪交互TTS播報資源播放聲紋識別云服務NLP模板智能家居專用文法DEMO 研發支撐智能音箱提供的能力智能音箱廠家提供的支持叮咚開放平臺目前各開放平臺的顯著特征:門檻低開發過程模板化,開發者不用關心語音的處理過程,更多的是關注輸入的條件和輸出成本低提供云服務,不用
15、關心運營成本帶屏智能音箱的興起繼2017年5月Echo Show發布后,近期國內也上市了幾款帶屏的智能音箱產品帶屏音箱的優勢強交互人臉識別,彌補聲紋識別的短處視頻通話AR場景的融入帶屏音箱面臨的問題和挑戰人臉識別p比人臉打卡有更高的要求(更遠的距離、更廣的角度)p無屏智能音箱宣傳喚醒距離的指標,也綁架了人臉識別p為了人臉識別的準確性,要求有更高清晰度的拍攝效果p更高像素的攝像頭,需要更好的處理器,更高的硬件成本投入麥克風陣列技術和聲學處理算法p環形麥克風陣列不再適用p結構設計更復雜p高價標配高功率喇叭,對算法本身的挑戰性p語音通話時要引入雙麥通話降噪算法帶屏音箱對AI技術的進一步要求p人臉識別,更遠的距離,更快的響應,更少的運算量,減少硬件成本負擔p消費級的線性麥克風陣列技術還需要進一步優化p其它傳感器的引入(紅外?),借助于紅外檢測和人臉識別一體的喚醒技術p帶屏智能音箱是AR技術最好的載體,也承載著廠商對于提升自身購物體驗的愿景AR技術結合線上購物