1、聽未來:探索 AI 聲學硬件與 AI 應的交互新紀元演講:赟賀聲智科技副總裁我們正回歸對話式社會01語交互是AI產品的關鍵形態全球涌現多家AI語公司,語是最本能的溝通段視頻來源:Tenyx官Tenyx通過多LLM架構和實時語成技術,提供準確度和可擴展的語代理服務,為企業在實時性且需準確性的應場景中創造安全、靈活的語交互體驗。Tenyx曾獲$15M融資,并于今年9被Salesforce宣布收購,憑借Tenyx的尖端語代理技術鞏固Salesforce在全球CRM市場的領導地位。圖來源:XWaveForms AI,家新的頻LLM公司,正在訓練的基礎模型,其創始曾在 OpenAI 中負責 ChatGP
2、T 語。它的標是在 2025 年發布與 OpenAI 和 Google 的產品競爭的 AI 頻產品。該初創公司獲得了由 Andreessen Horowitz 領投的 4000 萬美元種資。AI語應具有模型技術基礎和逐漸成熟的市場趨勢機對話延時性端到端模型迭代C端產品全球增速B端客服場景優勢創新全國個AI播客應,AI重塑知識信息獲取式 如何規避戶不會向AI“提問”的困境?如何脫離Chatbot形式?如何實現戶嗨?AI如何新內容創作的式?消費內容是否可以由消費者決定?語模型產品新交互范式語有更的信息傳遞效率AI應探索思考AI語類應對全球中年戶具有吸引,持續探索社交屬性 “我們正處于 AI 能夠理
3、解和運語,并最終可能結合視覺進多模態交互的時代”Justin Uberti (OpenAI實時 AI 項負責)觀點:新的內容創作新的媒介,硬件可以成為新的媒介AI 模型時代的聲學計算02遠場語是常交互的前提,低延遲是流暢交互的關鍵聲學雖為“眾”物理學科,卻是每次全球科技突破的關鍵點1876年代-電話(Telephone)1920年代-收機(Radio)1979年代-隨身聽(Walkman)1982年代-CD唱機(CD Player)1990年代-個電腦(PC)1998年代-MP3播放器(MP3 Player)2007年代 智能機(Smartphone)2015年代 智能箱(Smartspeak
4、er)2024年代 AI機(AI Earphone)軍事領域、?;铑I域均有應AI聲學算法聚焦復雜場景遠場交互效果,關注低延遲和精度【關鍵點1】AI硬件(包含具身智能機器)必須抑制“噪聲”問題【關鍵點2】聲延遲少壓縮到 250 毫秒以內(敏感群延遲感知30毫秒),需注重“端點檢測”(語)AI模型快速發展推動聲學計算新(以聲分類為例)卷積神經絡(CNN):在聲分類中,CNN 被泛應于提取聲學特征。CNN 通過處理頻譜圖像(如梅爾頻譜圖)來分類聲信號。CNN 在處理環境聲和語識別具有很的準確率。遞歸神經絡(RNN)和短時記憶絡(LSTM):RNN 和 LSTM 在處理序列數據表現優異,尤其適于捕捉聲
5、信號中的時間依賴性。它們在語情感識別和說話識別中表現出。Transformer 模型通過注意機制,在聲分類中展示了強的全局特征捕捉能。研究表明,基于 Transformer 的模型(如 AST)在頻分類任務中取得了顯著的進展。數據增強技術在提聲分類模型的泛化能發揮了重要作。例如,通過時間偏移、添加噪聲和改變調等法,來成更多樣化的訓練數據,以增強模型魯棒性。監督學習通過利未標注數據來預訓練模型,從在有限標注數據情況下提升分類性能。例如,使對學習法來學習頻特征表示,能夠顯著提下游分類任務的效果 聲學新型傳感、聲學陣列及芯,夯實聲學基礎效果和硬件成本端到端語模型為復雜的視聽AI應提供低延時解決案 “
6、舊的語模式實際上只是將你的聲轉換為本,經過 GPT-4 處理,然后再將本轉換回語。這是個有些拼湊的解決案(如左圖)然,使級語模式,即端到端語模型,如GPT-4o 實際上是將戶的聲頻分解為標記(顯然,每秒頻約等于三個標記),并直接通過個頻特定的變換模型處理這些標記。這就是能夠實現如此低延遲的原因?!眻D例:當前多數AI語交互服務采取的技術路徑 “基于聲的多模態交互,需要AI模型驅動聲學算法新從提供堅實的底層技術基礎”陳孝良 (中科院聲學所博,聲智科技創始)觀點:端到端模型直接處理語,交互更“然”。通過找到類對話的細微特征,映射到 AI 交互中提升“情味”。做賺錢的AI模型產品03華強北已經局的全球
7、“最熱”AI硬件AI硬件是AI模型的最佳落地形態,未來全球萬億市場規模 1968年標發明以來,機交互的式在不斷變。從最初的標鍵盤,到2000年左右的觸摸,再到語識別,機交互效率成倍提升。以OpenAI ChatGPT為代表的模型更是將機交互效率提升到了前所未有的平。隨著交互效率的提升,機交互的內容也從原來的字/字,發展到了聲、光、電、熱、磁等多模態數據。模型當前全重塑消費電產業,以AI聲為重做遍電硬件產品。美國微軟爾蓋茨最新預測,認為模型技術最先產市場規模的就是AI硬件,特別是AI機和AI眼鏡。據艾瑞咨詢的估算,2027年智能產業整體規模預計將達6,122億元,2022-2027年的相關CAG
8、R=25.6%。中國僅僅智能語產業規模到2025年即可達829億元,2022-2025年的相關CAGR=31.8%。AI硬件產品AI模型+硬件產,需成熟的“軟硬件結合”技術案智能聲學與AI模型重新定義消費電產品,AI硬件領跑消費新賽道AI模型賦能AI助聽器“破局”,硬核聲學技術為國重建原聽AI硬件仍需探索替代機的新形態,AI交互需脫離移動互聯時代載體久謙咨詢預估“AI+”硬件品類市場規模AI可穿戴硬件關注時間使(“always on/available”)觀點:未來AI產品設計可關注主動性、沉浸感與個性化體驗,The UI of AGI是AI硬件從業者需要思考的圣杯問題。Hardware is hard.沒有的路,每步都算數THANKS智能未來,探索 AI 限可能Intelligent Future,Exploring the Boundless Possibilities of AI