《艾瑞咨詢:2022年中國智能語音轉寫行業研究報告(43頁).pdf》由會員分享,可在線閱讀,更多相關《艾瑞咨詢:2022年中國智能語音轉寫行業研究報告(43頁).pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、釋放數字生產力,留存探索語音內容2022.12 iResearch Inc.智能語音轉寫行業研究報告2研究背景:研究對象:在工具不發達的年代,會議記錄主要依靠人力完成,以多人合作的分工形式提升記錄效率。后隨著記錄工具不斷升級和專業培訓,人工轉寫的效率也在不斷提升,專業速錄師可依靠速錄機完成會議等場景的轉寫需求,但成本較高。后隨著互聯網及人工智能技術的不斷發展,智能語音轉寫產品應運而生。尤其在 2011 年,大量研究人員轉向深度學習在智能語音領域的研究,利用大數據、機器學習和大算力“三駕馬車”,讓語音識別的識別準確度再一次得到明顯提升,智能語音技術迎來落地應用的發展期?!惫び破涫?,必先利其器“
2、,智能化的語音轉寫服務以價優、質高、便捷的優勢滿足了轉寫記錄這一交流場景的需求痛點,并在遠程辦公、新媒體、國際化交流的需求背景下,未來保持強勁市場增長力。作為語音識別技術的產品應用,智能語音轉寫產品是可以支持長音頻識別的語音轉文字服務,分為實時語音轉寫與非實時語音轉寫,可為信息處理和數據挖掘提供基礎。研究方法:本報告通過業內資深的專家訪談、桌面研究、產品對比研究、行業數據統計與行業規模推算輸出相應研究成果。艾瑞咨詢產業數字化研究部人工智能研究組報告撰寫前言對此,艾瑞發布中國智能語音轉寫行業研究報告,從語音識別-智能轉寫產品角度出發,確立智能語音轉寫服務的范圍定義,描繪智能語音轉寫服務的產業圖譜
3、與需求市場,梳理智能語音轉寫服務在 SaaS 軟件服務及本地解決方案的不同產品形式、商業模式及廠商格局,并為中國智能語音轉寫行業的趨勢發展提供分析判斷,希望通過本報告,為讀者呈現中國智能語音轉寫的產業發展背景、行業廠商動態、產品發展機遇的多維視角,歡迎各界探討指正。32022.12 iResearch I摘要來源:艾瑞咨詢研究院自主研究繪制。從技術趨勢來看,語音識別技術的精度和速度仍取決于實際應用環境,面對“混合語種”“嘈雜環境”下的“多人”“交互”“重疊”等多重因素交織的復雜語音場景,語音轉寫技術應用仍有待突破;從場景價值來看,如今智能轉寫應用領域大多僅服務于從語音到文字轉寫內容的實現,未來
4、轉寫應用可結合自然語言理解、機器學習、知識圖譜等AI技術,拓展轉寫產品的場景邊界,深入挖掘轉寫內容價值,以更高階、智能的輔助替代角色,為客戶提供問題預警、策略總結、決策分析等功能服務;從廠商策略來看,各家將以構建自身產品生態,加強外部場景合作為策略核心,基于自身企業特點選擇差異化側重,共同推進轉寫技術的應用滲透與市場發展。近年來,智能語音技術與互聯網、企業服務、消費硬件、傳媒、醫療健康等各行業的深度融合帶來了新的用戶需求增長和商業模式創新,創造產業經濟價值、繁榮產業生態,算法模型、優質數據集與多樣化應用場景助力產業規模走高。部分智能語音產品如語音助手、語音轉寫、智能客服等取得產品價值突破或商業
5、上的顯著成就,語音識別相關產品多已進入穩步上升期。但在細分產品的交互體驗、使用效果、場景優化等方面仍面臨長期求索。人們面對“AI”時希望得到的自然、類人、甚至高信息密度的交互體驗,仍然是一個宏偉的開放性課題。在人力成本、協同辦公、傳媒音視頻、會展交流、跨國溝通等多重因素驅動下,中國智能轉寫市場不斷注入需求活力,2021年中國智能語音轉寫市場規模已約為10億元。未來,隨著智能轉寫的技術突破、功能豐富及場景泛化,智能轉寫市場規模將加速上揚,預計2026年市場規模將達到38億。從產品形態來看,智能轉寫產品主要包括SaaS類產品與本地化部署解決方案兩大類。其中,SaaS市場頭部聚集效應顯著,訊飛聽見與
6、搜狗聽寫位列第一梯隊,訊飛聽見在轉寫準確率尤其是小語種和方言等、產品豐富度、品牌影響力和發展潛力維度拔得頭籌。未來,SaaS形式API調用與垂類解決方案將形成合力,構成智能語音轉寫產業既快且穩的增長飛輪,高生態活性加硬解決方案實力的企業將更能突出重圍,搶占更多增量市場。語音識別產品早期主要是語音聽寫,即用戶說一句、機器識別一句;后來發展成語音轉寫,更聚焦于人人交流場景。智能語音轉寫是可以支持長音視頻的語音轉文字服務,附加產品服務、多語種翻譯、內容分析等智能化功能,滿足用戶在會議、庭審、采訪、直播、視頻制作、客服質檢等場景中的實時與非實時語音轉寫需求。隨著語音識別準確性及效率的提升、多語種與方言
7、轉寫服務豐富,以及上下文糾正、標點過濾、自定義熱詞配置、聲紋角色分離、語音內容分析提取等功能的逐步優化,智能語音轉寫服務的商業化落地與多場景復用持續推進,成為語音識別產品的“排頭兵”。智能語音產業發展智能語音轉寫產品智能語音轉寫市場智能語音轉寫趨勢洞察4智能語音轉寫行業發展背景篇1智能語音轉寫行業市場分析篇2智能語音轉寫行業典型企業案例3智能語音轉寫行業發展趨勢篇452022.12 iResearch I智能語音產業的宏觀背景數字信息輸入輸出的重要載體,人工智能產業落地“先鋒軍”智能語音技術指通過聲音信號的前端處理、語音識別(ASR)、自然語言處理(NLP)、語音合成(TTS)等技術形成完整的
8、人機語音交互流程,是實現人與機器交流的紐帶,也是數字信息輸入與輸出的重要載體。近年來,智能語音技術與互聯網、企業服務、消費硬件、傳媒、醫療健康等各行業的深度融合帶來了新的用戶需求增長和商業模式創新,創造產業經濟價值、繁榮產業生態。智能語音產業的迅速發展促進了我國數字經濟發展、提高了社會治理的智能化水平、推動了我國人工智能技術創新的戰略突破。作為人工智能產業落地的“先鋒軍”,智能語音產業得到了國家和地方政策的有力支持,且隨著參與者不斷進入智能語音賽道,“百舸爭流,千帆競發”,產業技術水平和產品競爭力不斷提高。來源:艾瑞研究院根據公開資料自主研究繪制。發布日期相關機構重點內容2022-05國務院辦
9、公廳強化科技賦能,進一步加強12345平臺和網上12345能力建設,開發智能推薦、語音自動轉寫、自助派單功能2021-11工信部工業和信息化部批復組建國家智能語音創新中心,將圍繞多語種語音識別、語音合成、語義理解和專用人工智能語音芯片等研發方向,構建集共性技術研發、測試驗證、中試孵化和成果轉移轉化于一體的創新平臺2021-01國務院辦公廳提出加強自助下單、智能文本客服、智能語音等智能化應用,方便企業和群眾反映訴求建議2020-10工信部鼓勵智能家居產品普及語音控制功能,推動基于智能語音識別技術的智能音箱、智能可穿戴設備及其他智能家電產品開發,老年人可通過語音方式實現便捷化操作2019-02最高
10、人民法院全面提升語音識別技術在庭審語音同步轉錄中的應用效能,建成全國法院智能語音云平臺,實現全國法院語音識別的模型共享和統一管理2018-04國務院辦公廳開展智能醫學影像識別、病理分型和多學科會診以及多種醫療健康場景下的智能語音技術應用,提高醫療服務效率2017-07科技部公布了首批國家新一代人工智能開放創新平臺,包括自動駕駛、城市大腦醫療影像和智能語音2017-07司法部大力發展電子公證、法律服務智能保障等業務模式,推進人工智能語音熱線和社交網絡法律服務機器人技術研發,促進公共法律服務提檔中國智能語音產業典型應用場景及政策匯總(部分)傳媒制作智能機器人智能客服智能家居協同辦公62022.12
11、 iResearch I智能語音產業的市場規模2022年智能語音市場規模達215億元,產業規模持續走高近年來,我國人工智能產業維持穩步增長態勢;其中,智能語音產業基于語音識別等算法模型突破、優質數據集積累和豐富的下游應用場景創新,已進入規?;罡A段。我國頭部智能語音企業、大型互聯網企業等紛紛以“開放平臺+垂直賽道”的發展模式,一方面通過語音開放平臺為各行業開發者提供智能語音技術支撐,協作場景與產品創新,助力產業規模增長;另一方面憑借各自在消費硬件、協同辦公、視頻直播等領域的行業理解與用戶生態,持續拓展智能車載、娛樂傳媒、協同辦公、智慧醫療、在線教育、智能家居等垂直行業賽道,以語音為信息的出入
12、口,構建泛語音產業生態集群。2022年中國智能語音產業規??蛇_215億元且維持較高增速,預計到2026年產業規??蛇_469億元。注釋:智能語音典型產品包括對話機器人、智能硬件中的AI語音助手以及教育、醫療、司法、公安、互聯網等垂直行業中的智能語音產品及應用。來源:艾瑞咨詢研究院根據專家訪談,結合艾瑞統計模型自主研究繪制。2019-2026年中國智能語音產業規模7710915921527233139646941.6%45.9%35.2%26.5%21.7%19.6%18.4%-1 5 0.0%-1 0 0.0%-5 0.0%0.0%5 0.0%1 0 0.0%01 0 02 0 03 0 04
13、0 05 0 06 0 07 0 08 0 02019202020212022e2023e2024e2025e2026e智能語音產業規模(億元)智能語音產業增速(%)CAGR=16.9%72022.12 iResearch I智能語音產業的產品成熟度語音識別相關產品多已進入穩步上升期人類對機器語音識別的探索始于20世紀50年代,迄今已逾70年。2016年,在深度神經網絡的幫助下,機器語音識別準確率第一次達到人類水平,意味著智能語音技術落地期到來。后隨著近場語音識別準確率提升、遠場語音識別和喚醒發展、全雙工語音交互出現、基于NLP的對話和問答能力逐漸成熟、知識圖譜技術助力對話引擎以及針對實際應用
14、中的算法優化,智能語音技術的落地可用性不斷突破。但其背后涉及的聲學研究、模式識別研究、通用NLP研究及垂直場景的深度語義理解等還未成熟到拼成一個沒有明顯短板的“木桶”。因此盡管部分智能語音產品如語音助手、語音轉寫、智能客服等已取得了產品價值突破或商業上的顯著成就,但在細分產品的交互體驗、使用效果、場景優化等方面仍面臨長期求索。人們面對“AI”時希望得到的自然、類人、甚至高信息密度的交互體驗,仍然是一個宏偉的開放性課題。來源:艾瑞咨詢研究院自主研究及繪制。2022年中國智能語音產品成熟度曲線分布階段表示智能語音相關技術的一階產品,可衍生出各細分領域的產品應用。如智能客服+金融、基于語音助手的智能
15、音箱等表示智能語音技術二階產品,如基于語音識別技術的智能語音轉寫產品、基于語音合成技術的語音播報等智能客服產品成熟度萌芽探索期落地實踐期飛躍發展期穩步上升期生產成熟期語音識別智能語音開發平臺語音芯片聲紋識別語音輸入法語音轉寫智能車載語音助手生成式AI(音頻)語音審核智能消費硬件語音合成語音播報自然語言處理技術落地初期階段,產品成熟度較低產品普及率提升,成熟度曲線處于緩慢爬坡期產品規?;瘧?,成熟度快速增長成熟度趨于穩定,產品及服務差異化競爭階段成熟度穩定階段。但技術若出現跨越性突破,產品或回到飛躍發展階段82022.12 iResearch I智能語音轉寫的定義與分類語音識別產品的重要輸出形態
16、,分為實時與非實時語音轉寫語音識別產品早期主要是語音聽寫,即用戶說一句、機器識別一句;后來發展成語音轉寫,更聚焦于人人交流場景。智能語音轉寫是可以支持長音視頻的語音轉文字服務,分為實時語音轉寫與非實時語音轉寫,可為信息處理和數據挖掘提供基礎。適用于線上線下會議記錄轉寫、影視字幕制作、媒體新聞工作、會議翻譯等多個應用情境。作為數字化勞動力,解決剛需問題,有效提高辦公效率。隨著語音識別準確性及效率的提升、多語種與方言轉寫服務豐富,以及上下文糾正、標點過濾、語氣詞過濾、自定義熱詞配置、聲紋角色分離、語音內容分析提取等智能化服務功能的逐步優化,智能語音轉寫服務的商業化落地與多場景復用持續推進,成為語音
17、識別產品的“排頭兵”。來源:艾瑞咨詢研究院自主研究及繪制。0102實時語音轉寫智能語音轉寫產品定義與分類實時語音轉寫(流式上傳-同步獲?。簩崟r語音轉寫可將不限時長的音頻流實時識別為文字,并返回帶有時間戳的文字流;可用于直播實時字幕、實時會議記錄;也可配合機器翻譯,實現同傳功能。非實時語音轉寫非實時語音轉寫(已錄制音頻文件上傳-異步獲?。悍菍崟r語音轉寫將長段音頻數據轉換成文本數據??捎糜谟耙曌帜恢谱?、會議訪談記錄轉寫、智能客服錄音質檢等場景。語音識別作為智能交互中的一環,進行語音識別,讓機器“理解”人類說的話語,而非以識別為最終產品目的語音轉寫:支持長音視頻的語音轉文字服務,可為信息處理和數
18、據挖掘提供基礎。92022.12 iResearch I語音識別系統技術架構實現對聲音波形序列的識別,得到相應的單詞或者字符序列智能語音轉寫產品的核心是語音識別系統,需實現對給定的聲音波形序列的識別,得到相應的單詞或者字符序列。語音識別系統由信號處理和特征提取、聲學模型(Acoustic Model,AM)、語言模型(Language Model,LM)和解碼搜索共四部分組成。識別過程首先對音頻流進行處理,通過消除噪聲和信道失真對語音進行增強,然后分割聲音片段并轉換成一系列數值,通過聲學模型識別數值,最終利用語言模型解碼搜索匹配得到最優的詞序列作為識別結果輸出。聲學模型和語言模型的獲得需對預先
19、收集好的海量語音、語言數據庫進行信號處理和知識挖掘訓練。解碼過程中還存在一個“自適應”反饋模塊,可對用戶的語音進行自學習,從而對模型進行校正,進一步提高識別準確率。來源:艾瑞根據CSDN等公開資料整理研究繪制。信號處理和特征提取解碼搜索聲學模型語言模型智能語音轉寫產品核心語音識別系統的技術結構音頻信號聲音特征語言模型得分識別結果信號處理和特征提?。阂砸纛l模擬信號輸入,將其轉為數字信號,提取聲音特征,供聲學模型提取合適有代表性的特征向量。Step1Step2聲學模型將聲學和發音學(Phonetics)的知識進行整合,以特征提取部分生成的特征為輸入,并為可變長特征序列生成聲學模型分數。語言模型通過
20、訓練語料/數據(通常是文本形式)學習詞之間的相互關系,來估計假設詞序列的可能性,找出該聲音特征最有可能對應的文字序列。Step3解碼搜索:對給定的特征向量序列和若干假設詞序列計算聲學模型分數和語言模型分數,將總體輸出分數最高的詞序列作為識別結果。聲學模型語言模型打開空調 0.95大凱空調 0.70大楷空條 0.35da kai kong tiao0.85 0.950.700.85da kai zhao ming0.85 0.950.200.15聲學模型得分102022.12 iResearch I語音識別技術發展歷程聲學模型突破引領技術商業落地進程從最初的基于孤立詞的小詞匯量語音識別系統,到目
21、前的基于大詞匯量的連續語音識別系統,語音識別技術取得了顯著的進展。語言模型主要基于傳統的N-Gram方法(一種基于統計語言模型的算法)進行統計匹配。雖然目前也有深度神經網絡的語言模型的研究,但在實用中主要還是更多用于后處理糾錯?;蚣尤隢LP Embedding模型,聯系上下文,以提升語音識別結果準確率。而縱觀其技術落地的突破路徑,對于聲音模型的研究優化是實現產品性能提升的主旋律。聲學模型是語音識別系統的重要組成部分,占據著大部分的計算資源并決定著語音識別系統的性能。2009年隨著深度學習技術發展,基于DNN-HMM的語音聲學模型成為主流,語音識別因此取得了突破性進展;此后,不同的網絡結構組合以
22、及優化策略極大提升了聲學模型的性能,如端到端的識別模型、粗粒度的建模單元、更復雜的深度神經網絡等。來源:艾瑞研究院根據公開資料自主研究繪制。語音識別技術中聲學模型的突破路徑u深度神經網絡方法主導2006至今u概率統計方法主導1970s2006u模板匹配方法主導 1970s模板匹配識別:提取語音信號的特征構建參數模板,將測試語音與參考模板參數進行比較匹配,取距離最近的樣本所對應的詞標注為該語音信號的發音。該方法可有效解決孤立詞識別,但難以實現大詞匯量、非特定人連續語音識別。概率統計識別:隱馬爾可夫模型(HMM)和 高 斯 混 合 模 型(DMM)。GMM-HMM框架中,GMM用于對語音聲學特征的
23、分布進行建模,HMM則用于對語音信號的時序性進行建模。自上世紀90年代語音識別聲學模型的區分性訓練準則和模型自適應方法被提出以后,語音識別進入緩慢發展期。2006年:深度學習進入發展元年。2019年,Hinton將DNN應用于語音的聲學建模;2011年底,微軟研究院將DNN技術應用在了大詞匯量連續語音識別任務上,大大降低了語音識別錯誤率。從此語音識別進入DNN-HMM時代。此外LSTM(遞歸神經網絡模型)具有長短時記憶能力,整體性能比DNN有相對20%左右穩定提升2015-2017:基于端到端識別模型可去除HMM,直接從聲學特征輸入就可以得到識別的詞序列,進一步提升語音識別準確率及解碼速度。2
24、017年以后:隨著各種深度神經網絡以及端到端技術的興起,業界廠商紛紛發布及持續優化各自聲學模型結構。語音識別準確率持續提升。以科大訊飛為例,2010年中英文識別準確率只有60%左右,而在2021年8月,科大訊飛廠商的中英文轉寫準確率已突破98.33%。112022.12 iResearch I智能語音轉寫的需求場景以轉寫功能為基礎,滿足細分場景需求,構成豐富產品形態自從以遠場語音技術落地為代表的智能音箱產品規?;瘧?、深度神經網絡下的聲學模型研發創新進入平穩發展期后,語音識別賽道的產業競爭已經從標準環境下的算法研發比拼,過渡到了在真實細分需求場景下如何滿足用戶體驗的競爭。智能語音轉寫產品也遵循
25、這一賽道特征,以語音轉文字功能為基礎,附加產品服務、多語種翻譯、內容分析等智能化服務功能,滿足用戶在會議、庭審、采訪、直播、視頻制作、客服質檢等場景中的實時與非實時語音轉寫需求。智能語音轉寫產品具備豐富的產品形態,可應用于娛樂傳媒、在線教育、會議會展、同傳等多行業領域,幫助提升企事業單位辦公人群、學生、自媒體從業人員、翻譯專業人士等各類群體的工作效率。來源:艾瑞研究院根據公開資料自主研究繪制。智能語音轉寫產品的需求場景轉寫功能語種翻譯產品服務內容分析實時場景非實時場景提供會議記錄及會后整理,可附加會議軟件等產品功能提供字幕轉寫服務,可附加音視頻編輯相關產品功能提供語音轉寫服務,在多語種環境下,
26、附加實時/非實時翻譯功能提供人機耦合服務,譯員配合智能轉寫內容優化最終產出提供語音轉寫服務,對轉寫文本進行內容追蹤、實時提醒、處理分析、風控質檢等等操作實時會議記錄實時直播字幕實時庭審記錄實時客服記錄會議紀要總結音視頻字幕編輯庭審數據錄入黃暴等語音質檢對響應時間要求更高,需進行模型蒸餾與模型優化對響應時間要求相對較低,可通過閑時轉寫實現需求錯峰實時采訪轉寫實時會議同傳課堂錄音分析電話銷售/客服122022.12 iResearch I智能語音轉寫的價值意義存量助力人工轉寫市場,增量釋放更多潛在場景需求傳統人力轉寫市場依賴經驗豐富的速錄師與人工轉寫團隊,成本相對高昂,而隨著智能語音轉寫產品的規模
27、化落地應用,該類存量市場可借助智能轉寫產品,實現對人工轉寫的有效輔助及優化,為下游客戶提供更高質效的人機耦合服務;此外,轉寫應用仍有更大規模的潛在市場需求待挖掘,原受限于渠道、價格等因素,轉寫產品多應用于有垂類轉寫需求的小眾應用領域,而智能語音轉寫產品逐步讓轉寫應用實現泛化,市場邊界也將逐步擴散,未來智能語音轉寫產品有望開發更多潛在增量市場,撬動可用智能轉寫產品滿足的長尾需求,進一步優化用戶的應用體驗。來源:艾瑞研究院根據公開材料自主研究繪制。智能語音轉寫產品在助力轉寫人力基礎上,可滿足更多潛在、可被優化的轉寫場景需求。智能語音轉寫產品意義1)優化傳統轉寫人力服務2)滿足更多潛在可被優化需求增
28、量市場存量市場本身場景存在潛在轉寫需求,但人力實現需要高成本或原本人力難以做到,而智能轉寫產品可開發該類潛在增量市場,釋放更多產值規模。傳統人工轉寫費時費力,且轉寫質量與個人能力高度掛鉤,可借力智能轉寫產品提高存量市場的轉寫服務滲透率。通過智能語音轉寫產品撬動更多長尾需求例:個人辦公場景,有會議內容的潛在轉寫需求,出于時長與精力考量不會自做,出于成本考量不會外購,但可通過智能語音轉寫產品獲得優質高效、兼具性價比的轉寫服務。例:溝通交流場景,在多語種、方言溝通的日常交流環境中,存在潛在語音轉寫需求,可通過轉寫產品跨越語言障礙,實現高效溝通。13智能語音轉寫行業發展背景篇1智能語音轉寫行業市場分析
29、篇2智能語音轉寫行業典型企業案例3智能語音轉寫行業發展趨勢篇4142022.12 iResearch I智能語音轉寫產業圖譜來源:艾瑞根據公開資料自主研究繪制。下游應用領域2022年中國智能語音轉寫產業圖譜辦公場景傳媒場景電商直播翻譯場景上游基礎設施層產品及解決方案提供商服務器云服務數據服務開源模型智能語音企業云服務廠商專業轉寫/翻譯廠商C端用戶B端企業G端政府其他場景152022.12 iResearch I智能語音轉寫的發展驅力(1/5)智能語音轉寫可化解人工成本走高與質量要求提升的發展矛盾近十年來,中國人口增勢放緩,勞動人口紅利見頂,供應結構性短缺致使企業人力用工成本不斷攀升。根據國家統
30、計局數據,2020年中國租賃和商務服務業城鎮單位就業人員平均工資已達到92924元,相比十年前漲幅已達到1.35倍。人工轉寫成本的大幅上漲為轉寫行業帶來更多價格壓力。此外,隨著轉寫場景的泛化升級,轉寫需求滲透到各行各業,轉寫內容專業度也不斷提升,具備行業背景知識的轉寫譯員更成為市場供給側的稀缺人力資源,且轉寫交付水平存在不穩定性,與個人服務能力高度掛鉤。在此發展背景下,轉寫市場亟需智能語音轉寫產品,以輔助優化人工轉寫產品的角度切入,提供低成本、高質量、具備穩定交付水平的轉寫服務,滿足更多市場需求缺口。39566469765316262538671317248976782813938514788
31、1909292418.7%13.2%17.6%7.3%8.0%5.9%6.0%4.6%3.6%5.4%20102011201220132014201520162017201820192020租賃和商務服務業城鎮單位就業人員平均工資(元)平均工資增長率(%)2010-2020年中國租賃和商務服務業城鎮單位就業人員平均工資情況來源:國家統計局,艾瑞研究院自主研究繪制。162022.12 iResearch I2022.12 iResearch I智能語音轉寫的發展驅力(2/5)企業協同在線辦公常態化,助力轉寫功能實現更多用戶觸達2020年初,受疫情影響,很多企業無法按時復工復產,遠程辦公成為維持社
32、會經濟正常運行的重要平臺應用,用戶需求顯著提升,視頻會議、電話會議、在線文檔編輯等遠程協作功能得到更廣泛應用。根據中國互聯網絡發展統計報告數據,2022年月中國在線辦公用戶規模已躍升至4.7億,相比2020年6月增長幅度高達131.4%。如今疫情仍在延宕反復,隨著用戶在線協同辦公習慣的逐漸養成,遠程協同辦公或將成為常態化運營工具,持續推動企業數字化轉型。而相較于硬件錄音與錄音應用的產品形式,會議應用無需用戶購買錄音設備或額外開啟錄音應用即可觸達轉寫服務,提供了更直接的應用切入點,助力轉寫功能在辦公場景實現更廣泛的用戶觸達。來源:中國互聯網絡發展統計報告,艾瑞研究院自主研究繪制。來源:艾瑞研究院
33、自主研究繪制。2018年6月-2022年6月中國在線辦公用戶規模及使用率2.0 3.5 3.8 4.7 4.6 21.2%34.9%37.7%45.4%43.8%2020.62020.122021.62021.122022.6用戶規模(億人)使用率(%)辦公場景對智能轉寫產品的需求分析錄音應用硬件錄音會議應用轉寫產品辦公場景e.g.錄音筆e.g.語音備忘錄e.g.騰訊會議、訊飛聽見專業辦公人士,高頻錄音場景,對會議轉寫有強需求,需要額外硬件設備提供在線/離線轉寫服務。會議APP提供遠程會議平臺,通過會議APP錄制音視頻,為轉寫產品提供直接功能切入點。通過手機或電腦的錄音軟件錄音,隨后將錄音文件
34、上傳至平臺或APP,完成錄音文件轉寫。需要硬件設備 需要額外錄音 搭載辦公會議平臺相較傳統需要錄音筆與錄音應用的場景,協同在線辦公平臺及會議應用讓轉寫功能觸達到更多辦公人群,應用滲透率進一步提升。172022.12 iResearch I2022.12 iResearch I智能語音轉寫的發展驅力(3/5)網絡視頻興起,為轉寫產品開拓更多應用空間隨著數字技術與互聯網技術的普及,網絡視頻快速發展,短視頻因滿足用戶高漲的碎片化娛樂需求而迎來一撥爆發式增長,進一步提升用戶對整體網絡視頻領域的關注度與滲透率。如今網絡視頻已然成為人們生活娛樂、了解信息的重要組成形式。根據中國互聯網絡發展統計報告數據,2
35、022年6月,中國網絡視頻用戶規模已經達到9.9億人,占全部網民的94.6%。作為網絡視頻的供給方,自媒體工作者、長視頻內容編輯方均對視頻內容的字幕轉寫具備強需求,一方面字幕可幫助用戶更好觀看視頻內容,并在靜音模式也不影響觀看;另一方面字幕轉寫還可提供翻譯功能,助力網絡視頻在國際環境下的推動傳播;此外,對于平臺監管方來說,語音轉寫可服務于平臺內容監控需求,及時進行內容管理,避免網絡直播及視頻帶來的合規風險。綜合來看,網絡視頻的長足發展為轉寫產品開拓了更多市場應用空間。來源:中國互聯網絡發展統計報告,艾瑞研究院自主研究繪制。來源:中國互聯網絡發展統計報告,艾瑞研究院自主研究繪制。7.1 7.2
36、7.6 8.5 8.9 9.3 9.4 9.7 9.9 88.7%87.5%88.8%94.1%94.5%93.7%93.4%94.5%94.6%2018.62018.122019.62020.32020.62020.122021.62021.122022.6用戶規模(億人)使用率(%)2018年6月-2022年6月中國網絡視頻(含短視頻)用戶規模及使用率網絡視頻對智能轉寫產品的需求分析自媒體多語種轉寫長視頻編輯語音內容監控服務于內容生產用戶,智能切分時間軸。生成帶時間戳的轉寫字幕內容,支持在線編輯調整,極大提升自媒體工作者的字幕配置效率。為外語視頻提供轉寫及翻譯服務,可根據需要配置專業翻譯團
37、隊,實現高效人機耦合,完成多語種的字幕制作及翻譯需求。服務于長視頻編輯工作者,例如電影、紀錄片等,長視頻的語音轉寫更強調上下文聯系及方言理解,對語音技術提出更高要求。實時轉寫可實時識別直播內容風險,并給出及時警告提示;非實時轉寫可對平臺內容進行進一步甄別提示。182022.12 iResearch I2022.12 iResearch I智能語音轉寫的市場環境(4/5)會展雙線融合舉辦不斷提升,SaaS轉寫產品需求走高在2020年以前,會展行業多在線下舉行。面對國際語言的交流環境,會展行業的字幕轉寫產品大多采用線下人機耦合的服務模式,即專業的語音轉寫服務團隊與硬件機器設備相結合,為會展交流提供
38、字幕上屏、多語種同傳等的現場會議服務。而在疫情多點散發的情況下,會展活動的舉辦面臨很多不確定性因素。根據中國會展主辦機構數字化調研報告顯示,2021年,疫情導致各類會展活動取消、延期、異地舉辦,會展活動選擇線上線下相結合模式舉辦成為常態。字幕轉寫產品形態也由原來線下的人機耦合形式逐漸傾向于線上SaaS服務形式,并可配合線上人工智能服務團隊或翻譯團隊提供實時校驗服務。此外,SaaS產品形態的需求延伸進一步豐富轉寫產品的客群覆蓋度,除會展舉辦方外,更多C端用戶也可通過SaaS轉寫及翻譯產品滿足個人國際參會、實時翻譯的會展需求。2021年中國會展主辦機構辦展辦會方式注釋:N=195。來源:DRCEO
39、:中國會展主辦機構數字化調研2022,艾瑞咨詢研究院整理及繪制。2021年中國會展主辦機構調研主要數據注釋:N=195。來源:DRCEO:中國會展主辦機構數字化調研2022,艾瑞咨詢研究院整理及繪制。根據調研顯示,近70%的主辦機構選擇雙線融合辦展的方式,線上線下結合已成為會展常態。u雙線融合辦展趨勢31.3%的機構認為數字化轉型是大方向,超過50%的機構已經開始數字化轉型嘗試。u數字化轉型方向根據調研顯示,超過60%的會展機構能獲得各位數字化收入。但數字化收入占比有待提升。u數字化收入占比超過90%的機構對數字化轉型呈積極與樂觀態度,該比例相較于2020年提升6個百分點。u數字化轉型態度73
40、5083271022131483320214910161純線下舉辦純線上舉辦線上+線下相結合舉辦1-3場(個)4-5場(個)6-10場(個)10場以上(個)以上均沒有舉辦(個)線上會展成為線下舉辦的延伸助力,線上+線下呈現深度融合的發展趨勢192022.12 iResearch I2022.12 iResearch I智能語音轉寫的市場環境(5/5)轉寫產品助力解決出海生態下的復合型翻譯人才需求近年來雖然新冠疫情反復、地緣沖突加劇,全球經濟發展變數頻發,但中國企業出海浪潮已逐漸越過探索期,在視頻、游戲、電商、企業級SaaS服務等各領域催生出“出海繁榮”。2021年,中國對外直接投資凈額1788
41、.2億美元,比上年增長16.3%,連續十年位列全球前三,且超越出現統計數據以來首次負增長的2017年絕對值。目前,由于海外市場仍處于高速增長階段且出海市場各賽道集中度不高,我國出海行業仍具有極大潛力,在企業業務運營、跨國交流等領域對復合型翻譯人才需求較大。根據中國翻譯協會調研,高級翻譯人才稀缺、非通用語種人才匱乏、高校教育與實際工作需求脫節、無法滿足多個專業領域翻譯需求是翻譯行業面臨的發展難點。在此背景下,智能語音轉寫產品的翻譯及同傳功能,不僅能有效提高翻譯工作者的工作效率,同時人機耦合的形式也使各領域的非翻譯專業人才具備完成業務需要翻譯工作的可能性。來源:商務部、國家統計局和國家外匯管理局,
42、艾瑞研究院繪制。來源:中國翻譯協會2022中國翻譯人才發展報告,艾瑞研究院繪制。2016-2021年中國對外直接投資凈額1582.9 1430.4 1369.1 1537.1 1788.2-19.3%-9.6%-4.3%12.3%16.3%20172018201920202021中國對外直接投資凈額(億美元)增長率(%)2021年中國復合型翻譯人才需求情況31%27%13%8%8%7%6%外交學、國際關系新聞傳播類理工及其他專業法學類經濟學類哲學類、中國語言文學類電子信息類、管理科學與工程類202022.12 iResearch I智能語音轉寫的行業規模需求活力持續注入,預計2026年市場規模
43、達38億目前,智能轉寫產品率先在辦公會議、傳媒音視頻、會展交流等領域展開應用,用戶接受度日益成熟。據艾瑞研究院統計測算,2021年中國智能語音轉寫市場規模已約為10億元。未來,隨著智能轉寫的技術突破、功能豐富及場景泛化,智能轉寫市場規模將加速上揚。此外,轉寫產品可結合NLP、知識圖譜技術在單純轉寫內容的基礎上升級為分析策略的輸出層級,釋放更多價值勢能,預計2026年中國智能語音轉寫行業市場規模將達到38億元,2021-2026 五年CAGR=30.7%。來源:艾瑞研究院根據桌研與專家訪談自主建模測算。2021-2026年中國智能轉寫行業規模10131722293828.3%29.9%31.1%
44、32.9%31.4%20212022e2023e2024e2025e2026e智能轉寫行業規模(億元)智能轉寫行業規模增長率(%)212022.12 iResearch I智能語音轉寫的參與者類型以語音技術、產品生態、細分領域為多樣立足點根據參與廠商的市場立足點劃分,智能語音轉寫賽道的玩家可分為語音技術廠商、云服務廠商與專業轉寫及翻譯服務商。其中語音技術廠商在語音識別能力、轉寫服務水平上具備先發優勢,且投入足夠精力進行技術研發與產品打磨,產品化能力優秀,現占據智能語音轉寫市場的主流廠商地位;而云服務廠商的轉寫能力對內服務于內部產品的轉寫功能需求,對外多選擇開放語音轉寫能力達成外部合作以豐富平臺
45、生態,垂直于轉寫的產品化能力較弱;專業轉寫及翻譯廠商通常以細分領域切入,深耕于辦公、翻譯、傳媒等某個細分領域,在垂類市場提供精細化、客制化產品及解決方案,滿足細分客戶的轉寫服務需要。來源:艾瑞研究院自主研究繪制。智能語音轉寫參與者類型分析以語音技術切入以產品生態切入以細分領域切入語音技術廠商云服務廠商專業轉寫/翻譯廠商強于語音識別能力,為客戶提供語音轉寫接口、SaaS產品及全套解決方案等多樣化轉寫產品形式。除軟件服務外,硬件設備是觸達用戶的核心端口,部分語音技術廠商選擇從AIoT領域切入,依托于智能耳機、智能錄音筆、智慧屏等智能硬件產品進一步開拓轉寫應用場景傳統轉寫或翻譯服務商,持續積累垂直轉
46、寫需求客群,順應智能轉寫技術發展,切入細分領域,提供人機耦合的優化產品服務。依附公司產品生態,見長于平臺化能力,在辦公、泛娛樂、教育等場景搭配軟硬件產品輸出轉寫能力,一般分為對內與對外服務廠商代表:科大訊飛、搜狗聽寫、思必馳、捷通華聲廠商代表:阿里云、騰訊云、百度云、火山引擎廠商代表:網易見外、迅捷語音222022.12 iResearch I智能語音轉寫的產品形態包括SaaS類產品及本地化部署解決方案,均可結合智能硬件智能語音轉寫服務的產品形態主要包括SaaS類產品與本地化部署解決方案兩大類。以SaaS類產品為主,其核心是提供云端語音識別及轉寫服務,根據客戶分類與應用情景差異,包括輕量級的網
47、頁版/APP/PC/小程序產品和提供給B/G端客戶的API開發接口。SaaS類產品的主要特點是價格相對便宜、便捷度較高;而本地化部署的解決方案主要是為了滿足客戶的安全隱私與定制化需求,例如接入到政企內部辦公平臺等,需要服務商具備定制化開發能力。此外,為了提升語音采集的質量及多樣化的移動應用場景,頭部廠商如訊飛聽見、搜狗聽寫等開發了種類豐富的功能性智能轉寫硬件,如錄音筆、麥克風、智慧屏等,可提供云端或本地轉寫、錄音、存儲、編輯一體服務。來源:艾瑞研究院根據公開資料自主研究繪制。智能語音轉寫產品形態提供單機版軟件/私有化部署SDK接口,在本地可運行語音識別及轉寫能力。滿足客戶的定制化需求與安全隱私
48、需求,但部署成本高,主要面向對數據安全需求較高的大型企業或公檢法、廣電傳媒等政府客戶通過硬件內置芯片與本地詞庫,提供本地/離線轉寫服務。滿足對數據及網絡安全、便捷性及移動辦公等需求。移動端轉寫能力與實用性的提升,擴充轉寫功能的適用范圍SaaS類產品本地化部署解決方案通過Web/APP/PC/小程序等提供云端語音識別及轉寫服務,主要服務于C端客戶或企業賬戶,企業賬戶或具備空間管理、協同編輯等增值服務。通過行業詞庫和模型優化,產品可滿足傳媒、教培、金融、客服等多場景應用需求以錄音筆、麥克風、智慧屏等語音采集硬件為依托,調用云端語音識別及轉寫能力利用麥克風陣列,通過聲學技術保障拾音效果,以提升語音采
49、集精準度。軟硬一體形式提升轉寫質量及效率,并滿足會議、訪談等多類型需求場景豐富消費級智能硬件產品形態,提高產品售價、促進營收增長智能硬件價值點提供封裝語音轉寫能力的API接口。下游應用開發商和手機、錄音筆等智能終端廠商可進行集成232022.12 iResearch I智能語音轉寫的收費模式與用戶畫像知識密集行業用戶的辦公效率提升利器,下游客戶類型豐富1)SaaS產品的前期投入主要集中于產品研發以及固定的IT支出,得益于其能夠同時為多租戶提供服務的特性,使得SaaS的邊際成本極低。這既給SaaS廠商帶來了相當可觀的邊際利潤,也讓廠商在面對同類競爭時得以在價格上做出更多讓步。對于C端客戶的語音轉
50、寫服務需求,產品提供方在早期一般采取低價或免費試用時長的模式集聚用戶,占領用戶心智,迅速做大用戶量。后期營收增長依賴滿足準確率與實時率下的剛需客戶續費率、深耕多樣化場景以拓寬潛在客戶市場、軟硬一體的智能硬件產品拉高營收等;而企業客戶的價格敏感度則相對較低,更關注轉寫精準度和實時性體驗等。對于遠程會議、視頻剪輯、CRM等下游應用,則多將語音轉寫作為附加功能提供增值服務,用戶可付費解鎖。2)本地部署解決方案可滿足政企客戶的定制化與安全隱私需求。但部署成本高,項目制報價形式涵蓋軟件服務、實施與運維、硬件設備等費用??蛻粼陉P注轉寫效果的同時,亦關注安全性、駐場訓練語料、設備安裝等實施及售后服務能力。來
51、源:艾瑞研究院根據公開資料自主研究繪制。智能語音轉寫產品的收費模式與用戶畫像免費應用后向廣告收費按照時長和并發計費SaaS類產品單筆訂單單筆付費按月/年訂閱制儲值卡(時長)企業賬戶附加功能轉寫服務轉寫能力接口一次性license智能硬件硬件付費+軟件服務免費本地部署解決方案個人用戶畫像:主要是學生、媒體工作者、IT/金融辦公人群等。主要來自于一二線城市的知識密集型行業。其中PC端使用者多為有強辦公需求的企事業單位用戶,更重電腦音頻編輯企業賬戶畫像:主要集中于影視劇后期、教培機構等企業賬戶基礎收費模式同上,開通空間管理、協同編輯等增值服務賦能下游手機、錄音設備等硬件廠商單機版軟件費用項目制報價硬
52、件設備費用免費使用轉寫、翻譯等語言服務用戶畫像:主要面向政府、高校及大型企業??蛻粜枰D寫功能的對接與嵌入,對于數據安全、可拓展、靈活性要求更高,包括對需求響應的及時程度等私有化部署費用運維費用豐富的下游場景應用客戶242022.12 iResearch I智能語音轉寫SaaS產品分析高便捷性、開箱即用、按需使用、快速響應及多場景優化1)基于SaaS的語音轉寫服務產品通過將音頻文件上傳至云端,由云端轉寫引擎進行識別、轉寫、糾錯,完成實時或非實時的語音轉寫輸出。終端用戶可以在網頁或者APP上獲取結果,還可對結果進行編輯、分享、導出等操作。語音轉寫服務廠商通過多領域的語音轉寫模型優化和行業詞庫,迭
53、代更新以提升不同應用場景下的轉寫準確率,服務多類型客戶。隨著云計算技術發展,目前云端算力和網絡環境比較穩定,SaaS轉寫產品的轉寫準確率和效率與私有化部署解決方案的用戶感知度差距不是特別顯著。高便捷性、較低成本等優勢使語音轉寫SaaS產品擁有龐大的終端消費群體。2)且SaaS形式的轉寫產品具有開箱即用無需維護、按需使用等特點,可被集成到下游應用軟件或手機、智慧屏、錄音筆、智能會議系統等各類硬件設備中。API轉寫引擎可支持遠程會議、線上會展、電商直播、短視頻、在線課堂等軟件應用的紀要轉寫、字幕制作、同傳翻譯等功能,拓寬應用的產品服務邊界。廣泛的下游生態也有助于語音轉寫產品加速起量,擴大潛在市場空
54、間。來源:艾瑞研究院根據公開資料自主研究繪制。付費方式靈活,可通過充值時長卡的方式隨時使用轉寫服務或根據調用量及并發量訂閱付費按需使用、成本較低進行語言模型和行業詞庫優化,滿足多應用場景的客戶轉寫需求??蓱糜谳p辦公、會議會展、傳媒、短視頻直播、同聲傳譯等領域針對多應用場景優化通過網絡提供服務,用戶可多設備、多渠道接入,隨時訪問;且數據儲存在云端,實時同步高便捷性低時延,秒級甚至毫秒級處理返回語音識別結果,支持同傳、直播等實時轉寫場景需求快速響應B端客戶接入語音轉寫能力,可隨時調用,模型及時迭代更新開箱即用、無需維護智能語音轉寫SaaS產品特點252022.12 iResearch I2022
55、.12 iResearch I智能語音轉寫SaaS產品發展環境云計算普及助力下游企業便捷應用語音轉寫服務智能語音轉寫SaaS產品的普及推廣離不開我國云計算基礎設施的建設和技術成熟以及企業數字化轉型趨勢。我國云服務市場規模不斷增長,2021年中國整體云服務市場規模為3280億元,同比2020年增加45.4%,根據艾瑞咨詢推算,未來幾年的增速仍維持在30%以上。企業對云計算的接受程度也在不斷提高。中國信通院數據顯示,2019年中國企業應用云計算的比例達到66.1%,較2017年增長11.4pct,企業在經歷信息化階段后開始向數字化轉型。而在企業數字化轉型過程中,可有效提高會議交流、字幕轉寫編輯、同
56、聲傳譯等場景辦公效率的語音轉寫SaaS產品,具備交付靈活、使用便捷等優勢,且可降低企業現金流壓力,對泛互聯網等各類企業的數字化轉型和辦公效率提升具有重要意義。來源:艾瑞咨詢研究院自主研究推算及繪制。來源:中國信通院來源:信通院2020年云計算發展白皮書,艾瑞咨詢研究院自主研究及繪制。2016-2025年中國整體云服務市場規模及增速45.3%41.4%33.9%54.7%58.6%66.1%201720182019沒有云計算應用(%)有云計算應用(%)2017-2019年中國企業云計算使用率52169310261612225632804769681295501268332.1%33.2%48.1
57、%57.1%39.9%45.4%42.8%40.2%32.8%30.6%2016201720182019202020212022e 2023e 2024e 2025e整體云服務市場規模(億元)整體云服務市場增速(%)262022.12 iResearch I智能語音轉寫SaaS產品競爭要素轉寫準確度和效率、產品豐富度是核心要素綜合賽道特征,艾瑞咨詢評估智能語音轉寫SaaS產品競爭要素包含:轉寫準確度與效率、產品豐富度、品牌影響力、價格優勢、用戶體量與生態、發展潛力六個方面。從客戶選擇產品的角度看,雖然不同客戶類型和應用場景的需求會面臨一定差異,但轉寫準確度和效率、產品豐富度是解決用戶問題的第一
58、前提;在此基礎上,有價格優勢、品牌影響力大的玩家更容易受到客戶青睞。此外,用戶體量與生態實力強、發展潛力大的產品市場競爭優勢更明顯。來源:艾瑞研究院根據公開資料自主研究繪制。智能語音轉寫SaaS產品競爭要素轉寫準確度與效率產品豐富度品牌影響力價格優勢用戶體量與生態發展潛力指該產品支持應用場景(會議、會展、同傳、字幕等)、行業領域(金融、教育、零售、客服等)、產品形態(網頁、APP、API/SDK調用、智能硬件等)的覆蓋情況指該品牌產品的內/外部調用量和下游用戶類型廣度(消費者、企業級、政府客戶等)指不同收費模式下的產品單位價格;C端消費者相對價格敏感度高評價產品功能水平的直接指標。除核心的語音
59、識別準確率外,上下文糾正、語氣詞過濾、角色分離、熱詞設置等智能化功能可提高轉寫服務準確度指品牌開拓市場、占領市場、并獲得利潤的能力,核心評價維度來源于廠商端及用戶端對品牌的直接評價及認可指該品牌產品的未來市場空間?;谄浼夹g實力、產品化能力、服務水平及發展戰略綜合評估品牌影響力產品豐富度轉寫準確度與效率價格優勢用戶體量與生態發展潛力競爭要素轉寫準確度與效率和產品豐富度為滿足各類用戶需求的核心要素L1L2L3注:根據行業調研廠商表現,將競爭要素對應進行L1/L2/L3級評分272022.12 iResearch I智能語音轉寫SaaS產品競爭格局市場頭部聚集效應顯著,參與者致力差異化深耕現階段,
60、我國智能語音轉寫產品市場較為集中,訊飛聽見和搜狗聽寫的頭部效應明顯;但在產品同質化壓力下,參與廠商也均積極在轉寫的各細分專業領域、云端及本地化服務形式、附加產品形態與產品生態多角度進行差異化深耕。根據六大競爭要素,艾瑞咨詢將市場上提供智能語音轉寫SaaS服務的廠商分為三個梯隊,其中語音技術廠商訊飛聽見和搜狗聽寫位列第一梯隊。訊飛聽見在轉寫準確度尤其是針對小語種和方言等、產品豐富度、品牌影響力、發展潛力維度拔得頭籌。來源:艾瑞研究院根據公開資料自主研究繪制。智能語音轉寫SaaS產品競爭格局第一梯隊第二梯隊第三梯隊長尾廠商廠商在各競爭維度優勢明顯具有一定的品牌影響力,或深耕C端用戶運營推廣,或依托
61、品牌自有用戶生態,或依托下游開發者生態推廣相關業務。具備一定生態優勢,但在多語種、方言等場景下的轉寫準確率可做進一步提升。受限于轉寫能力、產品豐富度等因素,客戶市場份額較小。擁有一定價格優勢,但在其余維度表現多有所不足。品牌影響力產品豐富度轉寫準確度與效率價格優勢用戶體量與生態發展潛力訊飛聽見在轉寫準確度、產品豐富度、品牌影響力、發展潛力維度拔得頭籌。282022.12 iResearch I智能語音轉寫本地部署解決方案產品服務升級,高安全性與定制化滿足大型政企客戶需求為滿足大型企業及政府客戶對安全性和定制化的需求,智能語音轉寫SaaS廠商升級產品和服務,提供私有化部署形式和軟硬一體的產品解決
62、方案。1)本地部署的純軟件解決方案與SaaS產品的功能類似,但私有化部署的獨立服務器形式可保證客戶對數據保密的安全性需求且架構自主;同時,語音轉寫能力提供商可針對客戶提供的特定語料進行模型訓練,滿足客戶的定制化轉寫需求,貼合用戶業務場景,計算和執行效率更高。2)為了滿足政企大客戶的會議室、展會、傳媒編輯等線下場景的智慧辦公需求,軟硬一體的語音轉寫解決方案可打包提供定制化拾音功能硬件、多語種語音轉寫與翻譯能力、軟硬一體化開發接口等;對于隨身攜帶且有隱私要求的離線轉寫場景,一體機形式的語音轉寫設備則將硬件拾音、軟件與服務集成在一起,無需聯網,即開即用。來源:艾瑞研究院根據公開資料自主研究繪制。智能
63、語音轉寫本地部署解決方案特點智慧屏會議系統辦公專網提供的私有云固定會場的服務器部署u 產品服務升級支持離線轉寫場景架構自主數據保密安全需求定制化語料訓練軟硬一體的一站式方案移動辦公的離線單機版產品私有化部署形式線下軟硬一體產品292022.12 iResearch I智能語音轉寫產業的飛輪模型API經濟與垂類解決方案共拓產業廣度與深度平臺類廠商開放平臺API經濟可拓展智能語音轉寫產業的廣度,形成平臺效應,利用下游開發者的創新活性帶動市場發展,隨開發者生態聚集帶來龐大的下游規模經濟效益;同時,垂類解決方案則延伸產業深度,聚焦剛需應用與高價值環節,延伸出了錄音筆等智能硬件、協同辦公會議應用、提取長
64、時語音信息有效內容等多條增量建設與運營需求業務線。API經濟與垂類解決方案兩者合力,相輔相成,形成智能語音轉寫產業既快且穩的增長飛輪。在此基礎上,高生態活性加硬解決方案實力的企業更能突出重圍,搶占市場。來源:艾瑞研究院根據公開資料自主研究繪制。智能語音轉寫產業的飛輪模型深度垂類解決方案核心競爭力軟硬一體占據高價值環節,形成應用流量入口:圍繞語音轉寫需求場景的核心痛點,錄音筆、智慧屏、智慧會議系統等入口級智能硬件可延伸出多條增量建設與運營需求業務線,提供想象空間剛需高頻應用增肌造血:為轉寫技術找到可打磨的場景,如協同辦公、電商直播等,結合場景Know-How反哺技術研發,形成良性閉環API產業活
65、力與不設限空間規模效益與高毛利:SaaS產品利用率更高、單位成本降低。輕量化的輸出模式可以持續低成本、短賬期促進營收增長平臺效應:聚合合作伙伴,擴大影響力并實現語音轉寫技術下沉,塑造產業生態保持活性:構建動態更新的產品服務池,利用偏C端活性帶動B、G端需求,拓寬企業級客戶增長廣度業務飛輪30智能語音轉寫行業發展背景篇1智能語音轉寫行業市場分析篇2智能語音轉寫行業典型企業案例3智能語音轉寫行業發展趨勢篇45312022.12 iResearch I訊飛聽見科大訊飛成立于1999年,是亞太地區知名的智能語音與人工智能上市企業,訊飛聽見是科大訊飛旗下主打“AI+辦公”的子品牌,為客戶提供以語音轉文字
66、及多語種翻譯為核心功能的智慧辦公服務。依托公司深耕多年的自然語言處理、聲紋識別、語音識別、翻譯等核心技術,訊飛聽見的產品化能力也愈發成熟,打磨出平臺服務、會展傳媒服務、智能硬件產品、行業解決方案四條核心產品線,布局逐步完善,覆蓋廣泛下游應用場景,助力C端、B端及G端提升工作效率,實現高效知識管理。來源:艾瑞研究院根據公開資料、公司官網自主研究繪制。訊飛聽見轉寫產品線科大訊飛旗下“AI+辦公”品牌,聚焦語音轉寫及翻譯市場、平臺服務 聚焦服務辦公領域,在會議紀要整理、遠程視頻會議、跨國語言交流等場景,助力力企業高效完成辦公系統智能化升級。智能硬件產品 AI加持,軟硬件一體,以轉寫文字及翻譯為核心功
67、能的智能硬件,無縫連接訊飛聽見網站、App、客戶端,支持多種語言、方言,可有效提升學生在校學習和職場人辦公記錄效率。會展傳媒服務 提供“采編播審存”一整套流程的產品;為長短視頻剪輯工作者提供字幕轉寫產品;為會展行業提供線下一體機、線上SaaS服務的同傳服務;基于轉寫服務為會展傳媒行業打造可持續的AI應用生態圈。行業解決方案 以語音識別、機器翻譯、語義理解、OCR識別等能力為基礎,萃取“非結構化數據”,拓展數據維度,構建知識管理體系,輔助高效決策。為政府、企業用戶打造貫通會前、會中、會后的智慧辦公解決方案。訊飛聽見(轉寫)訊飛聽見翻譯訊飛聽見會議訊飛聽見同傳訊飛聽見字幕訊飛聽見媒體解決方案錄音筆
68、麥克風智慧屏訊飛聽見智能會議系統訊飛聽見智慧辦公室解決方案多終端服務(PC/Web/APP/小程序)軟硬件協同場景化服務多領域詞庫AI智能處理人機耦合時間碼自動匹配多語種字幕專業級錄音實時同步編輯免費轉寫服務軟硬件一體化開發接口支持公有云和私有化部署322022.12 iResearch I訊飛聽見讓辦公更高效,讓生活更簡單,讓溝通無障礙作為科大訊飛語音轉寫及翻譯的重要業務承接,訊飛聽見在業界的語音轉寫準確率、產品智能化應用、多領域場景化應用、多語種和方言表現上出色,并整合平臺和人工譯員等資源搭建語音語言服務平臺,讓機器與人工實現取長補短的融合,極致發揮人機耦合效能。如今,訊飛聽見生態用戶破億
69、,覆蓋用戶已超越5000萬,并與眾多B端客戶合作打造行業生態平臺,共同參與公益活動,讓聽障人士通過文字去感受世界、與人溝通交流,通過AI語音賦能產品,建立起與聽障人士溝通的橋梁。未來,訊飛聽見將以更積極的態度履行品牌使命:讓辦公更高效,讓生活更簡單,讓溝通無障礙。來源:艾瑞研究院根據公開資料、公司官網自主研究繪制。訊飛聽見轉寫業務優勢高識別準確率、多語種翻譯、穩定豐富產品性能應用實例行業生態伙伴公益行動生態共榮,開放API能力接口,服務生態合作伙伴。聽見AI的聲音:與中國聾協殘疾人藝術團聯合發起聽障關懷公益“聽見AI的聲音”,累計為用戶捐贈時長6000萬分鐘。B站無障礙直播間字幕:觀看英雄聯盟
70、S11、2022英雄聯盟MSI和2022英格蘭足總杯活動。轉寫精準語種豐富會議紀要智能化場景化隱私安全全鏈路多終端產品,客戶類型多元 準確率97.5%,1小時音頻最快5分鐘出稿。支持10種國家語言轉寫、12種地方方言、2種少數民族語。會議內容實時轉寫,邊錄邊轉;會議信息快速整理,清晰明了;關鍵內容實時標記,一鍵定位。智能糾錯、語氣詞過濾 角色分離:智能區分說話人,標記多角色,快速整理稿件 根據不同行業客戶,提供16個行業詞庫 適配不同客戶需求,支持音視頻、文檔、鏈接等多格式 通過可信云認證,信息加密全程保證 硬軟件一體、行業定制解決方案定制、私有化部署等??蛻舾采w職場個人、政府企業、文化傳媒等
71、。同時搭建語音語言服務平臺,整合AI語音產品及人工服務提升人機耦合服務效能。私有化轉寫翻譯服務為客戶提供私有化轉寫翻譯服務。332022.12 iResearch I火山引擎服務于字節系產品,短視頻字幕生成用戶生態體量大火山引擎的語音識別能力基于深度學習技術,可將音頻中的語音轉成文字,用于識別多種音頻編碼格式、多種場景和不同長短的語音,廣泛應用于音視頻字幕生成、會議訪談轉寫、呼叫中心錄音質檢、課堂內容分析等場景。其智能字幕生成服務可用于輔助視頻字幕創作和外掛字幕生成。產品支持多個語種的語音識別、歌詞識別和字幕打軸,可結合語音停頓和自然語言的語義信息,全自動判斷說話或唱歌,輸出流暢自然的分句結果
72、,適配視頻剪輯、網課、視頻會議等多種場景的智能字幕生成。有效提高視頻內容生產者的積極性,降低視頻內容處理成本。來源:艾瑞根據公開資料研究繪制。服務穩定準確率支持語種豐富企業級穩定服務保障,專有集群,大流量并發,高效靈活,可快速返回識別結果采用端到端語音識別框架,與抖音、飛書、剪映、西瓜視頻等業務深度合作,具備實際業務場景打磨的豐富經驗,確保準確率廣泛應用于泛娛樂、辦公、教育、客服場景,支持了汽車、智能金融、銀行、保險、證券、運營商、物流、房地產等眾多垂直領域多語種識別,支持中英日韓等多國語言及地區方言的識別多領域覆蓋火山引擎語音轉寫服務特點與主要客戶342022.12 iResearch I靈
73、云聽語靈云平臺推出的以語音轉文字為核心的云服務平臺靈云聽語是由捷通華聲開發的一款專注語音識別轉寫的智能化應用。由靈云聽語網頁版和靈云聽語App版組成,可分享相同賬號,數據聯通。網頁版能夠將音頻轉寫結果以普通文本或字幕格式導出,支持在線編輯;App版則支持手機實時錄音邊說邊轉和導入音頻文件轉寫識別。靈云聽語支持多種音頻格式,使用場景豐富,支持中文、英文、方言識別轉寫。中文轉寫覆蓋13種專業領域,廣泛用于辦公會議、錄音整理、訪談演講、課程學習、記者采訪、視頻字幕制作等場景。來源:艾瑞根據公開資料研究繪制。轉寫服務覆蓋13種專業領域通用聊天電話客服教育學習金融財經政黨會議戀愛心理哲學思想廣播電臺企業
74、辦公旅游景點網課教學醫療健康國學歷史實時轉寫響應速度快至500毫秒;非實時轉寫1小時音頻文件只需5-10分鐘語音識別速度快超大容量多種音頻格式多語種mp3/wav/m4a/amr/mp4/flv/mov/avi格式支持中、英、方言識別和中、英、數字混合輸入單條大小不超過5G,時長小于3小時靈云聽語語音轉寫功能介紹352022.12 iResearch I錄音轉文字助手支持手機端和網頁端服務,主要服務于C端用戶錄音轉文字助手是由上海動起信息科技有限公司開發,可應用于安卓、蘋果手機、iPad、網頁端通用的一款將語音轉文字、錄音轉文字、音頻文件轉文字并翻譯記錄的軟件,適用于會議,采訪,講座,課堂,出
75、國旅游,英語學習等各種場合。該應用依托迅捷語音的核心語音識別技術,提供視頻轉文字、圖片轉文字、合成主播等文字轉語音應用,主要面向各行業C端用戶。來源:艾瑞根據公開資料研究繪制。錄音轉文字助手業務布局與轉寫專業領域錄音轉文字翻譯文字轉語音快速轉換文字,方便進行拷貝和編輯等后續的工作。適用于轉寫會議記錄、電影對白、新聞媒體、情感寫作等多個情景,提高辦公效率,專注生產力的提升。亦提供人工精轉服務提供簡體中文、英文、阿拉伯語、德語、法語、葡萄牙語、西班牙語、意大利語、韓語的互譯服務,支持中英文實時對話翻譯高辨識度的語音合成功能,模擬真人發聲,讓文字信息變得繪“聲”繪色。如廣告叫賣、專題宣傳、課件培訓、
76、方言配音、英語配音等??梢宰远x主播參數的設置,如音量、語速、語調,來調節達到更適合使用場景的發音轉寫專業領域通用聊天會議辦公教育培訓情感寫作新聞媒體IT科技36智能語音轉寫行業發展背景篇1智能語音轉寫行業市場分析篇2智能語音轉寫行業典型企業案例3智能語音轉寫行業發展趨勢篇4372022.12 iResearch I技術趨勢來源:艾瑞研究院根據公開資料與專家訪談自主研究繪制。應用價值提升仍受技術掣肘,轉寫場景有望進一步泛化智能語音轉寫的技術難點方言語種環境噪音多人聲道如何提升語音識別魯棒性?收集大量真實環境的語音數據進行帶噪訓練,需付出大量精力成本,且由于真實環境復雜多變,難以覆蓋所有應用場景
77、。采用單通道、麥克風陣列、機器學習模型、深度卷積模型自適應等語音增強方法,盡可能減弱背景噪聲影響。當下語音識別技術的精度和速度仍取決于實際應用環境,在常見語種、標準口音、安靜環境下的語音識別情況已達到了可規?;瘧脿顟B。但現實應用場景隨機性極高,面對“混合語種”“嘈雜環境”下的“多人”“交互”“重疊”等多重因素交織的復雜語音場景,語音技術尚未能很好地處理這些問題。如今,語音轉寫應用多限制在辦公會議、視頻直播等部分較為理想環境下的固定場景,下一代語音識別技術的突破創新有望實現轉寫場景泛化升級,進一步抬升語音技術的應用價值與潛力空間。近場環境遠場環境達到高識別準確率,甚至超過人類水平無噪音識別準確
78、率略有降低,可規?;瘧幂p微噪音識別準確率將大幅下降在傳播過程中,聲波能量隨傳播距離呈指數衰減,語音信號受到噪聲和混響的干擾更加嚴重雞尾酒會問題:周圍多人同時說話時,如何識別每個人的說話內容?眾多漢語方言識別除中英應用廣泛外的小眾語種識別多語種混合識別(例:中英粵)如何區別不同說話人的語音轉寫內容?硬件層面:多麥板卡,基于硬件實現說話人分離目的算法層面:傳統聚類算法,在說話人數量少,且無重疊語音等簡單場景下,能夠取得較好的效果;引入聲紋識別,需提前錄入說話人聲紋達到說話人分離效果,限制應用場景;應用端到端語音分離模型,分離不同角色語音信號,將角色標簽的指派問題,轉化為目標說話人的語音檢測問題,
79、基于角色特性不斷優化模型。如何解決方言及小語種的識別覆蓋范圍?盡可能收集方言及小語種的數據集語料進行語言模型訓練解決低資源問題,通過少量數據資源解決方言,小語種識別問題如何解決多語種識別問題?通用建模:將不同語種的建模單元映射成同一套建模單元體系多語種混合模型:不同語種共享一個隱層神經網絡,各自有獨立的一個輸出分類層382022.12 iResearch I場景價值基于產品生態圈,多維度延伸轉寫技術的內容價值鏈從產品生態圈來看,智能語音轉寫既可以作為單獨功能產品出現,也可將轉寫模塊嵌入到各個產品及應用領域中,將語音內容沉淀為文字資產,與更多應用形成內容聯動,進一步拓展轉寫服務的技術優勢與場景價
80、值,打造連接轉寫應用生態的良性循環;此外,如今智能轉寫應用領域大多僅服務于從語音到文字轉寫內容的實現,而從內容價值鏈來看,未來轉寫應用可結合自然語言理解、機器學習、知識圖譜等AI技術,拓展轉寫產品的場景邊界,深入挖掘轉寫內容價值,在沉淀文字內容基礎上,自主生成優化策略,以更高階、智能的輔助替代角色,為客戶提供問題預警、策略總結、決策分析等功能服務。目前可代表的典型場景為客服內容質檢,但未來轉寫內容的分析挖掘在銷售對話、辦公內容洞察、視頻內容分析、主播話術策略等領域有更加廣闊的商業化前景。來源:艾瑞研究院自主研究繪制。智能語音轉寫產品發展方向+辦公場景+音視頻場景+交流場景+內容分析 將轉寫功能
81、嵌入更多辦公產品應用,形成內容聯動及智能提取,提升辦公效率 結合NLP及知識圖譜技術進行轉寫內容的信息挖掘及深入分析 從web端、PC端、APP端提升轉寫功能可觸達性,優化語種、方言的技術能力 賦能更多第三方音視頻產品,開放轉寫功能模塊,構建音視頻產品AI應用生態 順應會展兩線融合趨勢,提供線上會展字幕及翻譯功能 泛化交流場景受眾,賦能更多交流工具,打破方言、語種的語言壁壘 將語音轉寫功能開放給更多產品模塊,將語音轉為文字資產保留 開發文字資產價值,對轉寫內容進行深入分析,為公司提供高價值的決策依據392022.12 iResearch I廠商策略構建自身產品生態,加強外部場景合作順應智能語音
82、轉寫市場的需求釋放,各家參與廠商將持續開展差異化競爭策略,在轉寫市場找到適合自身情況的角色定位,共同推進轉寫技術的應用滲透與市場發展。早期,智能語音廠商選擇率先構建硬件生態,以硬件產品“創造”更多轉寫應用場景,快速獲得C端流量入口與品牌認知,隨后不斷加強軟件服務及生態能力。未來,智能語音廠商將在保證自身技術創新力與先進性的基礎上,集中發力內部軟硬件生態的合力構建;云服務廠商將持續保持對內嵌入轉寫功能、對外開放轉寫能力的雙邊策略,發揮自身平臺優勢,更多以提供底層能力服務的賦能者活躍市場;專業轉寫及翻譯廠商將繼續聚焦垂類場景,以轉寫及翻譯能力為核心產品,以客戶需求為導向,豐富軟件產品的功能模塊,加
83、強構建更完善、更具業務理解的軟件生態。來源:艾瑞研究院自主研究繪制。智能語音轉寫廠商策略構建硬件生態構建軟件生態內部策略內部策略外部策略開展外部合作通過硬件產品開發創造更多轉寫服務的應用場景硬件產品一般選擇與外部方合作,但轉寫廠商若具備硬件設計能力,可優化硬件中的拾音模塊,提升轉寫識別準確率以轉寫能力為核心產品,開發對應軟件產品將轉寫能力嵌入到現有軟件產品中,將轉寫功能成為產品模塊中的一項,優化用戶在辦公領域、音視頻領域的使用體驗。以API或SDK的接口形式將語音轉寫能力開放出去,為生態合作伙伴提供語音能力的集成化服務,無需自身投入大量精力實現以轉寫功能為核心的產品化?!皬S商核心關注點即為轉寫
84、服務的依托場景,如何通過內外部策略提升轉寫技術的商業價值”40行業咨詢投資研究市場進入競爭策略IPO行業顧問募投商業盡職調查投后戰略咨詢為企業提供市場進入機會掃描,可行性分析及路徑規劃為企業提供競爭策略制定,幫助企業構建長期競爭壁壘為企業提供上市招股書編撰及相關工作流程中的行業顧問服務為企業提供融資、上市中的募投報告撰寫及咨詢服務為投資機構提供擬投標的所在行業的基本面研究、標的項目的機會收益風險等方面的深度調查為投資機構提供投后項目的跟蹤評估,包括盈利能力、風險情況、行業競對表現、未來戰略等方向。協助投資機構為投后項目公司的長期經營增長提供咨詢服務艾瑞新經濟產業研究解決方案41艾瑞咨詢是中國新
85、經濟與產業數字化洞察研究咨詢服務領域的領導品牌,為客戶提供專業的行業分析、數據洞察、市場研究、戰略咨詢及數字化解決方案,助力客戶提升認知水平、盈利能力和綜合競爭力。自2002年成立至今,累計發布超過3000份行業研究報告,在互聯網、新經濟領域的研究覆蓋能力處于行業領先水平。如今,艾瑞咨詢一直致力于通過科技與數據手段,并結合外部數據、客戶反饋數據、內部運營數據等全域數據的收集與分析,提升客戶的商業決策效率。并通過系統的數字產業、產業數據化研究及全面的供應商選擇,幫助客戶制定數字化戰略以及落地數字化解決方案,提升客戶運營效率。未來,艾瑞咨詢將持續深耕商業決策服務領域,致力于成為解決商業決策問題的頂
86、級服務機構。400-026-聯系我們 Contact Us企 業 微 信微 信 公 眾 號關于艾瑞42法律聲明版權聲明本報告為艾瑞咨詢制作,其版權歸屬艾瑞咨詢,沒有經過艾瑞咨詢的書面許可,任何組織和個人不得以任何形式復制、傳播或輸出中華人民共和國境外。任何未經授權使用本報告的相關商業行為都將違反中華人民共和國著作權法和其他法律法規以及有關國際公約的規定。免責條款本報告中行業數據及相關市場預測主要為公司研究員采用桌面研究、行業訪談、市場調查及其他研究方法,部分文字和數據采集于公開信息,并且結合艾瑞監測產品數據,通過艾瑞統計預測模型估算獲得;企業數據主要為訪談獲得,艾瑞咨詢對該等信息的準確性、完整性或可靠性作盡最大努力的追求,但不作任何保證。在任何情況下,本報告中的信息或所表述的觀點均不構成任何建議。本報告中發布的調研數據采用樣本調研方法,其數據結果受到樣本的影響。由于調研方法及樣本的限制,調查資料收集范圍的限制,該數據僅代表調研時間和人群的基本狀況,僅服務于當前的調研目的,為市場和客戶提供基本參考。受研究方法和數據獲取資源的限制,本報告只提供給用戶作為市場參考資料,本公司對該報告的數據和觀點不承擔法律責任。合作說明該報告由訊飛聽見和艾瑞共同發起,旨在體現行業發展狀況,供各界參考。