《張宇凡《AI數字人實時互動技術在文旅場景中的創新應用》.pdf》由會員分享,可在線閱讀,更多相關《張宇凡《AI數字人實時互動技術在文旅場景中的創新應用》.pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、AI數字人實時互動技術在文旅場景中的創新應用演講人:張宇凡數字人技術原理數字人的定義以及wav2lip模型的訓練過程,和模型所有的優勢02前言介紹從2019年開始創辦貴州猿創科技到現在從事數字人的研發。01數字人+文旅場景文旅景區的痛點,以及為什么要選擇文旅作為第一個業務板塊03系統體驗與展示展示技術細節,體驗文旅數字人的功能情況。0401前言介紹張宇凡2019年創辦的貴州猿創科技,屬于貴安新區招商引資企業。2020年旗下校園團購平臺校團幫獲200w風險投資。2022年ChatGPT開源模板市場占有率超過60%,開始組建研發。2023年發布xhadmin多應用SaaS框架,基于框架做了多個爆款
2、應用,比如超級SEO助手、AI論文專業版、AI小說轉動漫以及AI老照片轉視頻等。2024年到現在,大部分精力全部投入到數字人的研發。02數字人技術原理數字人定義與分類數字人可分為非交互型和交互型,非交互型主要用于展示,交互型可與用戶實時互動。交互型數字人通過語音識別、自然語言處理等技術實現與用戶的雙向溝通,應用場景更廣泛。01數字人分類首先肯定是擬人化,它需要像個人,其次就是虛擬的形象,最后還要能實時交互。這些還不足以定義一個數字人,最重要的是要智能,要像人一樣去思考,能夠處理一些工作任務。02數字人定義以前的數字人只能是通過動作捕捉技術去建模,然后來完成一系列的智能交互,現在可以通過音頻同步
3、,讓數字人更加真實。在加上deepseek的爆火,結合知識庫,未來會有無限可能。03發展現狀數字人模型研發4.34.54.832.63.23.82.82.83.64.14速度清晰度同步率訓練難度圖表標題wav2lipmusetalklatensync目前市面上已知的開源模型都無法滿足客戶的需求,比如wav2lip、Musetalk、LatenSync、Video-retalking等開源模型。開源模型系列我們嘗試了幾乎所有的原生開源模型訓練,效果都不理想,最后基于原生的wav2lip開源模型訓練,優化了60%以上的訓練算法,最終達到了最理想的效果。訓練泛化模型Wav2Lip算法基本原理唇形同步
4、通過深度學習模型,根據音頻信號自動生成與之匹配的唇形動作,實現音唇同步。網絡結構為了提高唇形生成的真實性,我們對算法進行了優化,采用了更高效的網絡結構。音頻對齊通過對音頻進行預處理、特征提取和歸一化等操作,為唇形生成提供高質量的數據輸入。實時互動數字人我們自己訓練的模型,目前已經趨于穩定,且在市場上也是經過了無數生產驗證的,對口型效果逼真度能達到99以上,堪比真人,近期在準備算法備案?;谖覀円呀浻柧毢玫膶谛偷乃惴P?,延伸出來實時數字人的需求,我們有了一定的基礎之后,做實時互動顯得得心應手,目前我們能做到低至1秒的延遲,這是其他廠商無法做到的。成熟的技術方案低延遲互動技術03數字人+文旅場
5、景應用場景0102在景區、博物館,可以作為講解員,提供沉浸式的交互體驗,如路線規劃、景點導覽等文旅景區在醫院,為患者提供就診流程、門診時間等信息,幫助患者快速找到所需科室,提高就醫效率醫療系統醫療系統應用場景在教育領域,教學輔助工具,為學生提供更加生動、形象的學習體驗,激發學生的學習興趣教育領域政務服務大廳智能推送服務入口,完成業務咨詢、資訊推送、服務引導、事項辦理等政務服務政務領域0201公共服務比如在機場展示航班信息,提供航班查詢和建議等。金融領域作為數字人員工,提供業務咨詢、操作指引等服務,提升服務效率。應用場景選擇景區賽道?雙龍景區目前是我朋友在管理運營,前幾天他來找我,對數字人應用在
6、文旅場景表現出極大的興趣。01從實際需求出發將已有的數字人模型,改造為流式問答,就可以完成實時互動需求。02已有的技術方案文旅場景需求與痛點傳統景區講解服務單一,缺乏互動性,游客參與度低。旅游旺季人力不足,服務質量難以保障。數字人可以實時互動,接入大模型之后讓知識更加廣泛,互動更加有趣。文旅景區系統+數字人可以降低景區部分成本,如果結合景區的歷史人物IP形象,還會促進景區宣傳。局限性新變革數字人實時互動延遲低至1秒,保障流暢交互。對口型效果逼真度99%以上,提升用戶沉浸感。低延遲與高逼真度多場景適配能力標準化的系統肯定是不能滿足需求的,我們根據不同的業務場景單獨研發系統對接滿足不同行業個性化需
7、求。技術創新與突破持續優化算法,提升語音識別與合成效果。探索新技術融合,比如后續會接入一些MCP的服務。技術優勢與創新04系統體驗與展示來點實際的上大屏幕演示寫PPT。對于我來說太有難度了,所以我只想用最簡單的方式讓大家感受到我今天所要講解的內容。作為一家技術型研發公司,不會畫餅,說話也不太利索,只能踏踏實實做點技術開發。不會畫餅不會寫PPT直奔主題注意看視頻中的人物口型變化口型配置有限,如果部署到4090或以上,會更快速度看整體效果,以及功能架構,適用多行業同步率掃碼查看詳細視頻演示商業化路徑探索商業化路徑的挑戰與機遇面臨市場競爭與技術更新的挑戰,需不斷創新與優化。但也迎來文旅行業數字化轉型的機遇,市場潛力巨大。私有部署方式將模型本地化部署,實現局域網通訊,隱私數據能得到有效保障。SaaS服務模式提供按需付費的SaaS服務,降低企業使用門檻。支持多用戶并發,滿足不同規模企業需求。商業化探索個人微信微信公眾號THANKS!