《RTE 開發者社區&InfoQ:RTE 和 AI 融合生態洞察報告 2024(44頁).pdf》由會員分享,可在線閱讀,更多相關《RTE 開發者社區&InfoQ:RTE 和 AI 融合生態洞察報告 2024(44頁).pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、R T E A N D A I C O N V E R G E N C E E C O S Y S T E M I N S I G H T S R E P O R TR T E A N D A I C O N V E R G E N C E E C O S Y S T E M I N S I G H T S R E P O R T生態洞察報告RTE融合和AI20242024前言 前言2024 年,AI 與實時互動技術的結合達到了前所未有的高度,推動了行業的發展與變革。5 月,OpenAI 發布了 GPT-4o,并展示了其對話功能,仿佛電影HER中的智能助手走入了現實生活。緊隨其后,6 月,a1
2、6z 發布了關于語音 AI 的展望報告,詳細分析了這一市場的巨大潛力,并為未來的語音 AI 發展繪制了藍圖。之后,其他行業領軍企業如 Cartesia 和 Bessemer Venture Partners 也紛紛發布了自己的洞察報告,深入探討了語音AI和實時互動技術的前景。進入 2024 年 10 月,OpenAI 宣布與 Agora、Twilio 等實時互動技術公司展開合作,同時,國內各大科技公司也陸續公布了在對話 AI、多模態 AI、語音 AI 等領域的技術布局和市場戰略。這一切都標志著實時互動技術與AI的結合進入了一個全新的發展階段。隨著這兩項技術的深度融合,我們已經看到它們在多個領域
3、和場景中展現出巨大的應用潛力,也賦予了智能體越來越可用的能力,語音助手可以幫助用戶打電話、操作終端設備;AI 能為用戶提供情感陪伴;而能夠糾正語音的口語陪練也讓學習更加個性化和高效。這些創新的應用讓智能體變得愈加智能、實用和貼近用戶需求。在這一背景下,RTE 開發者社區與 InfoQ 研究中心聯合發布了本份報告,旨在深入探討實時互動技術與 AI 結合的現狀、挑戰與未來趨勢。我們希望通過這份報告,為行業從業者、技術開發者以及創新者們提供有價值的洞察,幫助他們更好地理解技術融合的機遇與挑戰,推動技術落地與應用創新。本報告專注于探索如何利用實時互動技術與 AI 相結合,來提升用戶體驗,以及社區是如何
4、幫助 Voice Agent 生態建設和發展的。我們相信,這些洞察將為行業的持續創新和發展提供重要參考。前言 實時互動(RTE)行業定義回顧 在報告的開頭,我們再次回顧實時互動(RTE)的定義。實時互動(RTE)是遠程互動、多維溝通、身臨其境的交互活動。對互聯網技術架構提出更高要求,其特性主要體現在實時性和互動性兩個方面。來源:信通院實時互動產業發展研究報告 2022;聲網研究院實時萬象聲網帶你探尋實時互動的邊界前言 實時互動(RTE)行業定義回顧實時接入實時傳輸實時交互實時渲染互動網絡互動設備互動組件互動場景實時性互動性實時互動(Real-Time Engagement)實時互動(RTE)以
5、實時性和互動性為核心特點CONTENT實時互動與 AI 行業技術演進觀察與分析01應用場景新挑戰,造就 VOICE AGENT 新的產業架構02RTE開發者社區架起生態橋梁,加速生態溝通03實時互動智能生態的未來發展預測04實時互動與 AI 行業技術演進觀察與分析01實時互動與 AI 行業技術演進觀察與分析AI 應用落地時代:重新定義算力、數據與算法的價值,從技術驅動到價值賦能1.1在本輪浪潮的早期,行業的焦點集中在模型的規模與通用性上,尤其是對 AGI 的追逐。然而,隨著時間的推移,越來越多的從業者開始轉向 AI 的實際應用落地,尋求更具現實意義的創新與突破。AI 1.0 的三駕馬車算力、數
6、據和算法,在這一新時代中展現出新的特征。但在應用落地的關鍵階段,它們必須更加強調解決實際應用中的復雜挑戰,才能真正推動AI的商業化進程和技術賦能。當前云、邊、端的算力資源分布尚未均衡,具體分配需要根據場景和行業特點動態調整。數據算法算力傳統 1.0 的三駕馬車應用落地下,三駕馬車的轉變與新特征應用落地算力分布不均,云邊端模式仍在探索中數據數量和質量的必要性已經得到普遍認可,但能捕捉行業需求獨特性的專有數據,其獲取和積累往往面臨隱私、安全等多重挑戰。仍需要行業和場景的專有數據積累盡管以 Transformer、LSTM 為代表的主流深度學習架構在性能和效率上趨于穩定和成熟,但在實際落地過程中,仍
7、需結合具體場景和行業需求進行優化,關注落地性能。算法逐漸形成共識,但如何精準把握需求仍是挑戰轉向追求模型的大規模和全能基礎設施層面實時互動與 AI 行業技術演進觀察與分析AI 與 RTE 從獨立走向交融,共同開啟實時互動體驗新紀元1.22024 年,AI 和 RTE(Real-Time Engagement,實時互動)這兩個長期以來被視為相對獨立的領域,正式開啟了融合的序幕。最早的CDN服務提供商Akamai誕生AI+RTE 來到全面融合時代1998年 RTEAI音視頻編解碼工具及開發套件FFmpeg開源2000年音視頻實時通話框架WebRTC開源2011年4G商用,為實時音視頻的傳輸環節奠定
8、基礎2013年RTC PaaS服務商聲網成立,并于次年舉辦亞太區首屆WebRTC大會2014年5G商用,為低延遲實時傳輸做好基礎設施基礎2019年遠程辦公、云課堂等應用場景激發RTE行業活力2024年5月,支持文本、音頻、視覺多模態推理的 GPT-4o 發布10月,OpenAI 發布支持語音實時交互的 Realtime API,并官宣3家合作伙伴 Agora、LiveKit 和Twilio11月,WebRTC 作者之一,Justin Uberti 宣布加入 OpenAI實時互動場景得到進一步延展,情感陪伴、AI播客、AI學伴等場景的交互更加自然和真實2020年語音識別領域著重探索神經網絡(DN
9、N+HMM、LSTM+CTC 等)構建方式,語音識別準確率突破90%2009年起Siri增加語音朗讀功能2011年Amazon Alexa 上市2014年深度學習(MEMC、DC、RCNN等)融入視頻超分算法2015年起語音合成領域開始探索神經網絡構建方式(Tacotron、Transformer TTS、DeepVoice)2016年起語音各領域開始探索完全端到端模型2017年ChatGPT 發布2022年底文生視頻模型 Pika、Runway、Sora、可靈、即夢先后發布2023年年底起實時互動與 AI 行業技術演進觀察與分析從獨立到共生,歷經四大階段,行業正在進入實時互動智能時代1.3在
10、 AI 和 RTE 逐漸融合的過程中,InfoQ 研究中心發現,AI 的發展后期,為了更好的用戶體驗,離不開 RTE 技術支撐,而 RTE 技術的進步又能提升 AI 應用的性能,兩者相互依賴、共同推動實時互動智能生態的不斷升級。AI 與 RTE 雙線并行AI 與 RTE 獨立發展,各自在算法性能、實時交互等方面不斷提升,但尚未形成深度協同RTE+AIRTE 開始主動整合 AI 能力,如利用超分辨率等 AI 算法來優化實時視頻畫質AI 得益于 RTE 的支持,在終端設備上實現更好的響應速度和交互體驗AI+RTE隨著 RTE 技術在計算性能和網絡傳輸上的優化,AI算法能夠更高效利用邊緣計算的數據回
11、傳,加速模型迭代,同時提升多模態和語音AI的吞吐速度,為部署和推理提供更強支撐實時互動智能AI 算法與 RTE 系統協同優化,實時互動與AI深度融合,彼此互為原生,形成密不可分的整體,共同構建更智能、更沉浸式的用戶體驗01020304實時互動與 AI 行業技術演進觀察與分析 交互體驗新突破:實時、互動與沉浸的重塑1.4在實時互動智能中,交互體驗突破了用戶對實時性(毫秒級延遲)、互動性(語音、視頻、表情的多模態融合)、沉浸感(AR/VR 真實程度)的感知。超真實的擬人人聲和情感表達通過語音合成技術和大模型帶來的理解能力,實時互動智能不僅能模擬接近人類的聲音,還能根據情境表達豐富的情感,呈現高度擬
12、人化的語音體驗01智能打斷,沉浸對話通過 VAD 技術,支持實時智能打斷功能,模擬真實對話互動,創造更自然的沉浸式對話體驗03嘈雜環境,正常對話噪聲抑制、噪音過濾,語音增強,實現在嘈雜環境下的持續對話04極低延遲,極速響應通過采集、傳輸等環節的優化,實現毫秒級的響應時間,確保語音交互流暢自然02實時互動與 AI 行業技術演進觀察與分析技術進步拓展應用邊界:從傳統場景創新到新興場景創造1.5通過 AI 和 RTE 技術的不斷進步,許多此前存在局限性的應用場景得到了顯著優化。這些進步不僅推動了傳統場景的創新,也為新興應用場景的拓展提供了更多可能,帶動了社交與娛樂、生活服務、教育與培訓、企業與辦公等
13、領域的變革。實時互動智能場景進化社交與娛樂生活服務教育與培訓企業與辦公AI 寵物AI 隊友AI 輔助特效賽事直播社交媒體運營語音聊天AI 陪聊互動游戲電商直播XR 社交虛擬演唱會虛擬展館情感陪伴游戲語音游戲直播虛擬主播智能 NPC個性化辦公助理企業內容專家企業知識顧問互聯網法庭視頻會議數據分析線上面試虛擬門店/營業廳語音翻譯智能編碼遠程業務辦理個性化生活助理智能車機視頻客服智能監控遠程心理咨詢遠程問診健身鏡語音客服AI 教學/培訓XR 教學/培訓AI做題輔導英語口語練習授課直播互動實時互動與 AI 行業技術演進觀察與分析高性能、高準確到好體驗成為實時互動智能發展的新評價標準1.6基于實時互動智
14、能對于場景下用戶體驗的重視,我們認為是時候將用戶體驗作為應用側的一項重要評價標準。在這一過程中,不僅要考慮AI本身的性能,更要結合AI所應用的實際場景,評估其在特定環境中的表現。因此,實時互動智能和 AI 大模型的評價標準需要有所差別,特別是在應用場景中的互動質量和用戶體驗上,必須有針對性的標準來進行評估。高性能要求:代表應用落地在實時互動場景中運行的效率要求,受到云、邊、端算力協同調度和合理架構設計的影響高性能高準確要求:代表在特定場景中,對模型的輸出精度和判斷正確性要求,受場景數據的規模和算法優化程度的共同影響高準確好體驗要求:代表應用場景中用戶對交互效果、實時性、準確性及沉浸感的感知和期
15、待好體驗實時互動智能新評價標準的三大維度新衡量標準應用場景新挑戰,造就 VOICE AGENT 新的產業架構02應用場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent 實時互動智能的破局者2.1實時互動智能生態仍處于早期階段,生態內的關系尚未完全明晰,但各方都在快速探索業務落地的可能性。在這之中,Voice Agent 作為實時互動智能中確定性較高的分支,以其自然直觀的交互形式和成熟可靠的技術實現,展現出在特定場景中高效且穩定的優勢。Voice Agent 是利用語音AI和實時互動技術,借助語音等多模態的形式進行交互、解決特定場景問題的智能體,代表有情感陪伴、智能外呼
16、、實時翻譯/會議協作等。Voice Agent高性能算力架構:當前實時互動智能應用,尤其是 Voice Agent,對高性能的需求主要集中在毫秒級延遲和實時響應上。這種高性能要求,離不開云、邊、端三方算力的高效協同和合理調度設計。隨著云端大模型的規?;约斑吘売嬎隳芰Φ脑鰪?,Voice Agent 在特定場景中將實現更穩定的性能表現。高準確模型發展:相較于視頻等,GPT-4o 等端到端多模態模型的出現、相關 API 的發布簡化了語音交互的工作流程,并提高了實時性與語義理解的質量。這些技術進步使得 Voice Agent 在處理復雜對話時更加高效和準確。好體驗交互方式:語音交互方式更接近人類自然
17、溝通,具備天然的語言邏輯和情感表達優勢。這使用戶不需要適應復雜的操作界面或學習曲線,減少交互中的不確定性,用戶體驗更佳。應用場景:語音交互通常被限定于特定場景,如語音助手、導航、實時翻譯等,其使用路徑和目標明確,用戶的操作和系統的響應使用戶體驗更佳。產品生命周期通用和行業玩家正在共建 Voice Agent 產業生態2.2產品增長階段應用搭建Agent 編排底層Infra和API選擇Agent產品商業化產品研發期終端設備智能體游戲AI智能體智能外呼情感陪伴實時翻譯/會議協作AI 手機AIPC汽車機器人招聘教育醫療互動播客華為小藝小愛同學藍心小 V內置語音智能體的垂類應用硬件設備Agents智能
18、體托管RAG模型提供ModelOPS智能體框架 SIP Provider算力服務RTE(實時互動)API數據服務Amphion語音模型(TTS、STT、ASR、VAD、端到端等)視頻模型語音增強/降噪AI智能體平臺智能體生命周期管理應用場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent 的產業架構現狀Voice Agent 產業生態上下游鏈路較長,跨層協作難度大80%2.3Voice Agent 產品側仍在早期探索,但產品設計、核心功能與場景適配仍在探索中,缺乏通用性或標準化方案。制約了生態協同效率的提升包含從底層 Infra 和 API 選擇到智能體平臺的一系列,為
19、了實現 Voice Agent 最終應用實現的工具及平臺上下游鏈路長、生態協作效率低的問題仍然突出。在現狀中,產品側快速變化的需求難以高效傳遞至基礎設施和中間層,響應速度受限;同時,工具與標準缺乏統一,跨層協作復雜度高,進一步制約了整體生態的聯動效能。Voice Agent 的產業架構雖在完善,但現階段各層級的協同能力仍需提升,以應對更高效、更敏捷的市場需求。以基礎設施為核心,產品生態協作效率受阻基礎設施及中間層以實時翻譯為例,可能涉及的上下游協作:20%包含內置語音智能體的垂類應用和硬件設備產品側01應用側快速變化的場景需求,難以通過多層鏈路迅速反饋到基礎設施,放慢了響應速度上下游鏈條長,導
20、致響應速度慢02端云協同調度端到端模型優化特定場景和行業專有名詞知識庫構建翻譯智能體框架構建實時翻譯應用搭建耳機、翻譯筆等翻譯設備交互適配降噪/回音消除等設備適配網絡環境優化、弱網適配應用場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent產品側面臨算力、工具、終端與流量的多重生態協作挑戰2.4算力是 Voice Agent 應用落地的核心。云端算力支持高精度模型,但高成本和響應延遲限制了普及;端側算力延遲低,但能力有限,需依賴云端補充。如何平衡云端與端側算力分布,實現高性能與經濟性的兼顧,成為整個生態的共同難題。在實時互動智能領域,Voice Agent 應用的未來充
21、滿潛力,但目前仍面臨算力、終端、流量和工具四大關鍵挑戰。這些挑戰不僅影響用戶體驗的提升,更需要整個生態系統的深度協作來應對。Voice Agent 產品側面臨的端側和云端算力的協作挑戰當前 API 和 SDK 在 Voice Agent 原生場景中的設計適配性不足。交互中的打斷處理、語句分割、多輪對話邏輯等需求未能得到有效支持,加劇了開發復雜性。如何圍繞 Voice Agent 的場景特性,優化接口設計,提供更專用、更靈活的工具,成為提升開發效率的重要方向。API/SDK與場景的協作挑戰產品和流量渠道的協作挑戰多終端和多場景的協作挑戰4大挑戰多樣化的設備和場景對終端體驗提出了更高要求,例如降噪
22、處理、弱網對抗和低延遲交互等技術挑戰。單憑應用層難以全面適配,亟需硬件廠商、基礎設施提供方與開發者協同優化技術方案,提升多終端環境下的適配效率。在用戶分散的市場中,Voice Agent 應用難以通過傳統方式高效觸達目標群體。如何通過數據共享、算法優化和場景協同,實現精準覆蓋、減少無效流量,成為生態共建的重要課題。應用場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent 產品側面臨算力、工具、終端與流量的多重生態協作挑戰2.5Voice Agent 需要格外考慮到云端和端側的算力分布,這主要來自于語音交互對低延遲和流暢的用戶體驗的追求。通過云端與端側算力的智能調度和合理
23、分配,可以根據應用場景的需求,實時動態地在云端和端側之間平衡計算任務。這樣,既能利用云端強大的算力處理復雜任務,又能在端側實現低延遲、高效能的實時響應,從而提供流暢、絲滑的用戶體驗。高效的云端協同成為用戶體驗的核心云端算力雖然能提供足夠的處理能力,能夠充分展現模型的能力,卻伴隨著較高的成本和較慢的響應速度。這種延遲對于需要實時交互的實時互動智能場景而言,會很大程度地影響用戶體驗。性能高成本高和體驗低云上端側端側算力具有低延遲和本地處理的優勢,能夠快速響應用戶需求,但其計算能力和存儲空間有限,尤其是手機等終端。因此,端側通常需要云端補充,才能處理高負載任務并確保流暢的用戶體驗。體驗佳資源有限應用
24、場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent 產品面臨不專用的 API/SDK 與場景如何協作的難題2.6除了算力分布外,Voice Agent 也需要更好用的、對語音交互場景更有針對性 API/SDK,以將高效連接底層能力與應用場景。更好用的 API/SDK 對實時互動智能 Builder 的正向作用專用API更適配場景需求易用性加速開發過程穩定性與高性能保障流暢體驗生態靈活性優化跨環境體驗通用的 API 無法滿足 Voice Agent場景的特殊需求。因此,API/SDK 需要為 Voice Agent 做特定優化,能夠支持復雜的語音交互、自然語言處理和多模
25、態任務。理想的 API/SDK 應提供低代碼甚至無代碼的支持,使非技術背景的人員也能通過簡單的配置或拖拽實現復雜的功能,減少開發時間和成本。穩定性和高性能不可或缺,尤其在 Voice Agent 場景中,API/SDK 必須確保在高并發、低延遲的環境下,依然能保持流暢的性能表現,避免影響用戶體驗。API/SDK 的生態靈活性也至關重要。它們應支持多種適配,能夠兼容不同的設備、操作系統和網絡環境,并支持各種編程語言和框架,方便開發者在不同的平臺和技術棧上進行靈活集成和部署。應用場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent產品需要考慮應用場景與不同設備終端之間的適配
26、協作2.7在 Voice Agent 場景下,終端體驗從單純的設備兼容轉向更復雜的交互適配,端側體驗的重要性日益突顯。這要求開發者優化不同終端的硬件性能和網絡適應性,確保在弱網和低延遲環境下仍能保持流暢、穩定的用戶體驗。同時,在產品交互設計時,考慮到不同終端的操作方式和用戶習慣。實時互動智能場景需要實現端側資源和用戶體驗的平衡需要適配的終端逐漸增多應用場景隨著應用需求變化,降噪、弱網對抗、低延遲處理等問題逐漸影響實時交互的流暢性和穩定性。弱網或設備性能限制下,語音識別、情感表達和反饋準確性成為關鍵。不同終端的交互方式各異,開發者在適配的過程中也需要認真思考。語音、視頻的快速識別與響應流暢的實時
27、互動體驗不同的交互方式和特點端側設備有限的計算資源有限的存儲空間網絡、續航等資源交互適配不同終端的硬件差異、操作系統限制、計算能力和存儲空間的差距,要求開發者為每種設備設計專門的適配方案。設備兼容用戶體驗資源消耗AI手機AI PCAI 耳機AI 玩具AI 學習機AI 原生終端應用場景新挑戰,造就 Voice Agent 新的產業架構Voice Agent產品要同精準的流量渠道協作,進行產品推廣2.8通過更有性價比的流量,Voice Agent 應用能夠觸達更多潛在用戶,積累的數據反過來促進模型優化和用戶體驗提升,從而建立長期優勢?,F階段的開發者正在開發者社區之外探索高效的用戶觸達渠道:Dify
28、、Coze 的 MarketPlace各大科技企業的 Agent Store/Space更有性價比的流量對 Voice Agent 產品的助力傳導路徑新興渠道崛起,重塑用戶連接保持較高的產品競爭力,提高用戶忠誠度,最終實現長期的競爭力增長更有針對性的流量有助于產品觸達更精準潛在用戶,吸引用戶深度試用產品。為后續的數據積累和模型優化奠定基礎擴大產品用戶群體隨著用戶的深入使用,平臺會獲得更多的用戶數據。對累積數據的分析和學習,可以為后續的體驗優化提供數據支持數據累積和模型改進基于積累的數據,AI模型能夠變得更加精準和高效,也為產品優化提供了方向,對產品的實用性和互動性有更好的補充模型和產品體驗優化
29、自媒體平臺01新型產品平臺02應用場景新挑戰,造就 Voice Agent 新的產業架構010203加入用戶體驗后,哪個領域有望誕生下一個Killer App?2.9實時互動智能應用領域分析象限圖在重新設定的云端協同應用難度、場景準確性要求以及用戶體驗要求,三個衡量維度下,InfoQ 研究中心邀請了分析師和多位大模型對實時互動智能應用場景進行了打分,并征詢了多位行業專家的建議,最終生成了實時互動智能應用領域分析象限圖。交融爆發區:處在該區域內的應用場景具備一定的技術門檻和壁壘,但這些挑戰和要求尚未達到難以逾越的程度場景準確性要求場景準確性要求云端協同應用難度云端協同應用難度云端協同應用難度云端
30、協同應用難度氣泡大小代表該應用場景對用戶體驗的要求社交與娛樂新衡量標準生活服務教育與培訓企業與辦公XR社交虛擬演唱會情感陪伴互動播客互動游戲游戲直播賽事直播互動語音聊天游戲語音電商直播虛擬主播遠程心理咨詢語音客服AI做題輔導英語口語練習視頻會議虛擬門店/營業廳線上面試企業知識顧問遠程業務辦理線上內容專家智能編碼語言翻譯互聯網法庭數據分析遠程設備專家個性化辦公助理授課直播AI教學/培訓XR教學/培訓視頻客服智能車機健身鏡遠程問診智能監控個性化生活助理(財務、醫療、票務、出行等)應用場景新挑戰,造就 Voice Agent 新的產業架構開發者聲音:辦公助理、語音翻譯和內容創作最可能誕生 Kille
31、r APP2.102024 年 10 月,我們也在 RTE 開發者大會現場,放置了實施互動智能場景下一個 Killer App 的投票板,超過1000位的開發者在大會現場,投票預測下一個 Killer APP。企業與辦公智能營銷助手AI 會議助手實時語音翻譯AI 辦公助理AI 虛擬主播AI 情感陪伴游戲 NPCAI 內容創作AI 口語陪練AI 生活助理AI 問診與心理咨詢AI 健身教練AI 情感陪伴AI 陪伴助手個性化教學規劃AI 學習硬件社交娛樂教育與培訓生活服務47657362861077866219121826922557750032731620794119社交與娛樂、企業與辦公兩大場景
32、:最受開發者關注辦公助理、語音翻譯和內容創作:Killer APP 最可能爆發應用AI 分身社交、AI 展覽、多智能體、具身智能:開發者提名領域020103應用場景新挑戰,造就 Voice Agent 新的產業架構10765207121225219946669621197378828647RTE開發者社區架起生態橋梁,加速生態溝通03RTE開發者社區架起生態橋梁,加速生態溝通算力協同新思路:基礎設施、產品側與社區的三方合力3.1在實時互動場景中,算力的云端與端側協同是實現高性能與經濟性兼顧的核心挑戰?;A設施通過輕量化模型支持和透明化算力調度.為開發者提供端側友好的工具鏈;產品側聚焦功能需求拆
33、解與資源管理優化,實現靈活的任務分布和動態模型切換;社區則通過資源整合和合作共建,推動上下游企業協同創新,共同突破云端算力瓶頸。提供交流場合:通過社區力量,共建云邊協同相關的技術項目、專題討論、比賽等,推動上下游企業分享解決方案并探討合作。上下游資源整合:發揮社區的牽頭作用,整合模型壓縮工具、輕量化算法等資源,加速產品前期測試。社區基礎設施及中間層產品側輕量化模型支持:為垂類應用提供端側友好的工具鏈如支持量化、剪枝和蒸餾的模型優化工具,幫助開發者快速部署輕量化模型。云端協同框架:提供透明化的算力調度方案,支持開發者按需調用云端資源,同時動態調整端側推理任務。專注功能需求拆解:明確目標場景的核心
34、需求,合理拆解哪些功能需要高精度(依賴云端)、哪些功能可以在端側完成。優化資源管理:在硬件允許范圍內設計運行時的動態模型切換機制,例如在高負載時啟用低資源消耗模式保障用戶體驗的穩定性。RTE開發者社區架起生態橋梁,加速生態溝通解鎖場景適配潛能:API/SDK 協同的三方實踐路徑3.2激勵開發者貢獻API/SDK:通過活動激勵開發者互相貢獻插件,聯合開源社區和云廠商、平臺伙伴(如 dify、coze)合作推廣 API 插件的落地應用。API/SDK場景手冊:按產品場景細分(如外呼、教育、情感陪伴等),搭建場景的 API/SDK,幫助場景開發者更快更精準的進行開發選擇。社區基礎設施及中間層產品側打
35、造專用API:圍繞典型 Voice Agent 場景需求,設計專用的接口與 SDK,優化如上下文追蹤、多輪對話和多模態融合的適配能力。持續改進開發易用性:通過提供靈活的參數化接口或可視化配置工具,讓開發者輕松定制符合自身場景的交互邏輯。深挖場景需求:基于具體場景的特性,定義 API/SDK 的功能訴求,例如客服需要重點優化打斷處理,教育場景則需要支持長對話邏輯與上下文保持。設計原型驗證:快速測試現有API的適配性,反饋改進建議,推動基礎設施優化工具與應用場景的對接。在 Voice Agent 應用中,API/SDK 的場景適配性是提升開發效率與交互體驗的關鍵?;A設施通過專用接口設計和易用性優
36、化,為典型場景提供靈活支持;產品側聚焦場景需求深挖和快速驗證,確保工具與實際應用高效對接;社區則通過插件共建與場景手冊,整合資源促進協作,全面釋放 API/SDK 的場景適配潛能。RTE開發者社區架起生態橋梁,加速生態溝通弱網、低延遲與多設備:終端適配的協作新思路3.3終端適配專項小組:組織垂直行業工作坊,幫助終端設備明確需求,共同探討適配語音降噪、弱網抗性和延遲優化的技術。并將相關技術提供商引入對接,總結適配案例集:發布基于 Voice Agent 的多終端適配案例集,供開發者參考學習。社區基礎設施及中間層產品側跨終端兼容支持:提供統一的多終端適配框架,抽象設備差異,簡化開發者的適配工作。提
37、供支持弱網和低延遲場景的基礎能力,如分布式網絡節點和邊緣計算優化方案。交互習慣優化:支持跨設備的用戶狀態和偏好同步構建支持設備間無縫切換的上下文共享機制。細化場景設計:根據設備特點(如智能音箱的場景化對話、手機的移動性)優化終端交互邏輯,使應用更貼近具體場景的用戶需求。終端性能優化:在弱網環境或資源受限的情況下,優先保障核心功能的流暢運行,避免用戶體驗大幅下降在多終端場景中,Voice Agent 的適配需求從設備兼容轉向智能協同?;A設施通過跨終端適配框架和交互習慣優化,構建弱網環境下的低延遲體驗;產品側聚焦場景化設計和性能優化,確保終端交互邏輯與用戶需求高度契合;社區則通過案例集分享與專項
38、小組協作推動行業標準化,共同突破多設備協同的技術瓶頸。RTE開發者社區架起生態橋梁,加速生態溝通重塑流量協同:生態、產品與社區的創新新實踐3.4提供原型產品測試機會:通過工作坊、體驗活動、社區自媒體推薦等形式,實現Demo 產品快速驗證與快速迭代。用戶觸達新方式探索:協調新興流量平臺和智能體平臺與 Voice Agent 產品/解決方案提供商,共同探索用戶觸達的創新方式。提供產品運營幫助:提供場景化運營指南或陪伴活動,賦能開發者快速打入分散市場社區基礎設施及中間層產品側生態合作機制:提供靈活的生態合作機制,支持第三方應用和硬件廠商在平臺上共同推廣 Voice Agent 功能精細化用戶細分:基
39、于用戶行為和需求分析,設計個性化的產品推薦和定制化的使用場景,以提高用戶粘性和轉化率。制定精準營銷策略:根據不同市場和用戶群體的特點定制差異化的營銷活動,結合數據分析優化廣告投放和促銷策略。在流量分散的市場中,生態、產品與社區的協同創新成為 Voice Agent 破局的關鍵?;A設施通過靈活的生態合作機制,助力第三方應用和硬件廠商共同推廣功能;產品側以場景化營銷策略精準觸達用戶;社區則通過原型測試、流量平臺合作和運營支持,幫助開發者快速適應市場,推動流量高效轉化。RTE開發者社區架起生態橋梁,加速生態溝通Voice Agent產品需要更多新平臺新力量,實現更精準的資源對接社區更新資源對接以幫
40、助 Voice Agent 產品應對算力、工具、終端和流量挑戰3.5在日益獨特化的應用場景中,在 Voice Agent 產品快速探索和迭代的今天,原有的開發平臺、流量平臺等無法實現資源的快速匹配,亟需轉變。社區,通過更新資源對接的方式,幫助 Voice Agent 產品更好地應對算力、工具、終端和流量挑戰,并創造更優秀的用戶體驗和產業結構。協助探索更合理的算力架構提供交流場合:通過社區力量,共建云邊協同相關的技術項目、專題討論、比賽等,推動上下游企業分享解決方案并探討合作。上下游資源整合:發揮社區的牽頭作用,整合模型壓縮工具、輕量化算法等資源,加速產品前期測試。聯合資源開發更專用的 API/
41、SDK激勵開發者貢獻 API/SDK:通過活動激勵開發者互相貢獻插件,聯合開源社區和云廠商、平臺伙伴(如 dify、coze)合作推廣 API 插件的落地應用。API/SDK 場景手冊:按產品場景細分(如外呼、教育、情感陪伴等),搭建場景的API/SDK,幫助場景開發者更快更精準的進行開發選擇。助力更適配的終端交互體驗終端適配專項小組:組織垂直行業工作坊,幫助終端設備明確需求,共同探討適配語音降噪、弱網抗性和延遲優化的技術。并將相關技術提供商引入對接??偨Y適配案例集:發布基于 Voice Agent 的多終端適配案例集,供開發者參考學習。提供渠道鏈接更精準的用戶群提供原型產品測試機會:通過工作
42、坊、體驗活動、社區自媒體推薦等形式,實現 Demo 產品快速驗證與快速迭代用戶觸達新方式探索:協調新興流量平臺和智能體平臺與 Voice Agent 產品/解決方案提供商,共同探索用戶觸達的創新方式。提供產品運營幫助:提供場景化運營指南或陪伴活動賦能開發者快速打入分散市場。1234RTE開發者社區架起生態橋梁,加速生態溝通打破短期融合障礙,社區推動實時互動智能人才交流3.6在去年社區的年度報告中,我們發現 RTE行 業本身存在著巨大的人才缺口。而根據人設部的測算,AI 開發者供求比嚴重失衡,預計到 2025 年人才缺口將突破 1000 萬。而這兩類本身在開發者中占比就較小的群體,在實時互動智能
43、這個融合領域內,所面臨的人才缺口將會更大。除了面臨巨大的人才缺口,RTE&AI 開發者還面臨信息壁壘的挑戰。這主要源于行業融合時間短、以及跨領域的技術和經驗共享不足。來源:實時互動行業人才生態報告 2024 1.提供交流場合目前行業內針對 RTE 和 AI 融合的專門會議或社區較少,開發者難以獲取針對性的指導和經驗分享,也難以找尋到合適討論平臺2.整合具備易用性的工具鏈生態目錄社區可以整合工具鏈生態,通過自媒體或使用活動推薦和完整工具鏈,為開發者提供使用和反饋兼備的完備工具鏈生態目錄。Al BuilderAl BuilderRTE開發者社區架起生態橋梁,加速生態溝通實時互動智能 Builder
44、 的人才能力韋恩圖重塑 Builder 角色:Voice Agent 人才畫像的新定義3.7除了面對算力、工具、終端和流量的挑戰外,Voice Agent 的產品形態也對實時互動智能 Builder 自身的能力要求發生了轉變。新時代的實時互動智能 Builder 需要既懂得選用合適的 LLM,又知道實時互動的工程化落地對于終端體驗的重要性,又特別了解特定場景的實際用戶痛點。實時互動智能Builder實時互動理解AI 理解場景理解RTE 應用TTS等AI nativeAl AgentAI應用根據業務搭建合適的底層架構選擇合適的 API、平衡端云在延遲和體驗中平衡達到最好的效果全棧開發、工程化落地
45、和 QoE 體驗精確的選擇合適的模型 SKU會微調能夠優化模型能耗數據安全和 AI 治理場景化理解和解構需求優先級商業模式閉環客戶關系RTE開發者社區架起生態橋梁,加速生態溝通實時互動智能明星項目關鍵模式拆解技術共建(Github 上項目之間的共同貢獻者)云、流量等其他產業化支持(開放 POC 等)交流場合(大會、工作坊、開放日等)云資源云資源初創加速計早期實TTS輸出云資源云資源計劃計劃1357331116232014111033142971412127692144410189412933151088533628DiscordPaddleSpeechSenseVoiceChatTTSGPT-
46、SoVITSFunASRLangchainLlamaIndexWhisperRAGFlowFish SpeechMoshiStable Diffusion webuiDifyMiniMaxHume AIViduSeed-TTSOpenVoiceedge-ttsEmotiVoice英偉達Lepton AIElevenLabs信號與信息處華為百度TEN FrameworkCosyVoice此場atfieldAgentLivePixelHackAzureAWS計劃從社區支持到明星項目拆解:實時互動智能 Builder 需求深挖3.8除了各方合力構建新生態架構外,InfoQ 研究中心也關注實時互動智能
47、 Builder 在社區中尋找的核心價值。為此,我們深入拆解了 Dify、CosyVoice 等一系列明星項目之間的聯系,試圖探究這些項目在技術共建、產業化支持和交流場合上的關鍵模式RTE開發者社區架起生態橋梁,加速生態溝通RTE 開發者社區探索新協作模式,加速 Voice Agent 項目孵化3.9因此,除了圍繞算力、工具、終端和流量的挑戰提供資源整合和對接外,社區還需要加速促進人才交流與技術共建。根據這些需求RTE開發者社區也在逐漸探索生態內的新協作模型,以加速實時互動智能項目的開發和落地。線上技術大會(RTE大會)和展區線下聚會(RTE Open Day 等)線上直播(RTE Dev T
48、alk 等)在線社區、工作坊、陪跑計劃在線社區技術討論開源項目孵化分享創意 Demo工作坊挑戰和試用提供交流場合鼓勵技術共建通過場景實例和解決方案,更快地匹配合適的 API、SDK獲得算力、流量等產業化支持加速產品開發通過社區和線下工作坊進行產品推薦和試用調研,更快速獲得反饋聯合上下游等生態企業算力資源支撐提供優惠1234實時互動智能生態的未來發展預測04實時互動智能生態的未來發展預測實時互動進化:生態協作和應用場景助推下一代多模態交互實時互動智能以空間計算、空間智能為代表的空間技術,對于實時互動智能本身的互動體驗、應用場景和生態協作都將帶來新的機會。4.1新的硬件類型、基于新硬件而產生的新交
49、互方式構建開放、統一的空間計算技術框架硬件和算法的互相適配,以達成場景和交互的雙重賦能生態協作的再構建應用場景的再拓展空間計算通過融合 AR、VR 等技術,借助新的設備終端,為實時互動智能提供了全新的交互維度。模擬真實環境的交互設備/流程實訓打破物理空間限制的創新表達增強現實輔助醫療與遠程手術等實時互動體驗的再升級新玩家的深度參與更好的理解和感知物理世界打破物理和數字空間邊界多模態下一個交互方式語音觸控鍵盤鼠標代碼新基礎設施的技術標準算法硬件適配123實時互動智能生態的未來發展預測實時互動智能 Killer App 五大潛力場景根據本報告中的場景選擇新評價標準和開發者票選結果,選擇以下五大潛實
50、時互動智能Kiler App力場景。4.2國際商務會議 跨國團隊協作 外貿企業的實時語音訂單協作孤獨人群的心理支持 兒童早教互動個人口語練習輔助 語音陪練智能營銷外呼客服 語音售后客服重要事項提醒和規劃 智能家居實時控制12345算法硬件適配算法硬件適配語音翻譯/會議協作情感陪伴口語學習語音客服個性化生活助理(財務、醫療、票務、出行等)實時互動智能生態的未來發展預測打破多方挑戰,社區支撐良性生態交流體系共建4.3主動進行知識分享,編寫技術博客和實踐指南參與/牽頭工具鏈建設,降低普通開發者的入門門檻復合型人才開發者業內企業復合型人才開發者業內企業開源項目開發者社區完善文檔和教程,提高工具和代碼的
51、可讀性,并提供多樣的使用案例及學習資源建立開放的技術支持通道,如論壇、微信群、Slack 群組或 Discord 社區建立專門的技術分享平臺,積極推廣社區成果,吸引更多開發者和企業參與組織實時互動智能相關的行業峰會、研討會黑客松和工作坊活動,促進技術交流和創新整合上下游合作伙伴資源,提供更多的產業化資源和交流場合主動進行跨領域知識學習和儲備需要積極參與社區討論與建設需要主動參與項目,積累經驗參與國家/行業相關技術標準制定通過實習機會、專項培訓等方式培養復合型人才需要加強與社區、企業的合作開發者社區開源項目實時互動智能生態的未來發展預測社區助力培育兼具場景選擇和場景適配的明星項目除了場景選擇外,
52、能夠適應場景適配也是社區參與培育的明星項目的典型特征之一。4.4場景選擇高性能要求高準確要求好體驗要求代表應用落地在實時互動場景中運行的效率要求,受到云、邊、端算力協同調度和合理架構設計的影響代表在特定場景中對模型的輸出精度和判斷正確性要求,受場景數據的規模和算法優化程度的共同影響代表應用場景中用戶對交互效果、實時性、準確性及沉浸感的感知和期待明星項目在場景選擇上的特征場景適配高效開發適配多模態交互包容性溝通明星項目通常會具備良好的API 設計和生態兼容性,并結合特定場景的復雜需求優化開發工具鏈,包括 API、SDK、語音模型框架等。明星項目將借助多模態數據(語音、文本、視覺等)的融合,提升場
53、景理解的準確性。支持開發者與場景應用方(如企業客戶普通用戶)之間的反饋閉環,提升 Voice Agent 產品設計和服務精準度。明星項目在場景適配上的特征RTE 開發者社區由聲網及多位資深實時互動社區專家聯合發起,是聚焦實時互動領域的中立開發者社區。希望通過社區鏈接領域內的生態伙伴,激活開發者力量,萌芽更多新技術、新場景,探索實時互動領域的更多可能。目前現任主理人團隊林旅強(Richard Lin)開源社聯合創始人投身開源和開發者生態領域逾 15 年社區發起人:楊慧 社區運營組:傅豐元 孟蕾 陳韻 王尚 白宦成 魏伊培杜金房(Seven Du)FreeSWITCH 中文社區創始人RTS 社區和
54、 RTSCon 創始人語音 AI 資深專家有聲內容 AI 生成大模型數據創業盧恒(Bear Lu)RTE 領域開發者覆蓋45000+開發者握手次數200+社區官方微信公眾號社區小助手RTE 開發者社區通過陪跑計劃,提供更多資源支持為了更深入、更持久、更有針對性的陪伴 RTE Builder(開發者),RTE 開發者社區也發起了陪跑計劃,提供創業扶持、技術和家務加速、個人成長和影響力打造等資源支持。01.技術和業務增長陪跑:超音速計劃創業導師 1 v 1咨詢:針對技術型創業開發者推薦加入超音速計劃,加入后可享受技術支持、投融資對接、媒體曝光、行業資源等多方位支持02.技術和產品加速來自產業生態的
55、多項優惠額度:包含云資源、AI工具免費額度、產品運營短信優惠套餐行業最新開發場景 Demo 展示:RTE Openday用戶運營、應用市場等產品運營建議技術共建:Github 上項目之間的共同貢獻者04.個人影響力打造主流社區渠道曝光(播客、采訪、演講等)交流連接(黑客松、工作坊、開放日等)03.開發者個人成長各類生態內的線上線下活動和主流技術大會的門票福利社區內開發者之間的鏈接交流(RTE Meetup,RTE Hack-Day)最新技術趨勢洞察:編碼人聲播客,RTE開發者日報集合上下游社區伙伴過去一年,這些社區伙伴通過 RTE 大會、RTE Meetup、RTE Open Day、超音速計
56、劃等活動參與到 RTE 開發者社區的共建中。(排名不分先后)#5E4FA1#F8991D#FFFFFFFunAudioLLMAmphionSpeechGPT InfoQ 研究中心隸屬于極客邦科技雙數研究院,秉承客觀、深度的內容原則,追求研究扎實、觀點鮮明、生態互動的目標,聚焦創新技術與科技行業,圍繞數字經濟觀察、數字人才發展進行研究。InfoQ 研究中心主要聚焦在前沿科技領域、數字化產業應用和數字人才三方面,旨在加速創新技術的孵化、落地與傳播,服務相關產業與更廣闊的市場、投資機構,C-level 人士、架構師/高階工程師等行業觀察者,為全行業架設溝通與理解的橋梁,跨越從認知到決策的信息鴻溝。商
57、務合作:內容咨詢:技術市場趨勢洞察技術市場趨勢洞察技術市場趨勢洞察市場份額追蹤市場規模預測細分市場分析市場分析模型輸出用戶規模評估用戶決策分析用戶認知分析用戶行為分析技術需求洞察應用規劃建議技術實踐分析發展趨勢研判 極客邦科技,以“推動數字人才全面發展”為己任,致力于為技術從業者提供全面的、高質量的資訊、課程、會議、培訓等服務。極客邦科技的核心是獨特的專家網絡和優質內容生產體系,為企業、個人提供其成功所必需的技能和思想。極客邦科技自 2007 年開展業務至今,已建設線上全球軟件開發知識與創新社區 InfoQ,發起并成立技術領導者社區 TGO 鯤鵬會,連續多年舉辦業界知名技術峰會(如 QCon、
58、ArchSummit 等),自主研發數字人才在線學習產品極客時間 App,以及企業級一站式數字技術學習 SaaS 平臺,在技術人群、科技驅動型企業、數字化產業當中具有廣泛的影響力。2022年成立雙數研究院,專注于數字經濟觀察與數字人才發展研究,原創發布了數字人才糧倉模型,以此核心整合極客邦科技專業的優質資源,通過 KaaS 模式助力數字人才系統化學習進階,以及企業數字人才體系搭建。公司業務遍布中國大陸主要城市、港澳臺地區,以及美國硅谷等。十余年間已經為全球千萬技術人,數萬家企業提供服務。數字人才KaaS 模式學習平臺企業InfoQ 公眾號InfoQ 視頻號AI前線 公眾號商務合作:內容咨詢:洞察技術創新趨勢,推動數字化商業升級 報告編制說明及專家團致謝聯合出品方RTE 開發者社區、極客邦科技雙數研究院旗下 InfoQ 研究中心報告制作團隊楊慧、姜昕蔚、傅豐元、崔白潔相關數據來源a16z、Bessemer Venture Partners、Lightspeed、Letta、海外獨角獸、Cartesia社區媒體合作伙伴InfoQ、LitGate、語音之家、LlamaEdge、交互技術前瞻、異步社區、178A 盟專家顧問團陳若非、馮越、halajohn、李天雨、李森、Plutoless、王鐵震、武執政、俞佳(按照姓名拼音順序排序)致謝