《2024AI+3D行業發展前景及海外AI+3D探索進展分析報告(30頁).pdf》由會員分享,可在線閱讀,更多相關《2024AI+3D行業發展前景及海外AI+3D探索進展分析報告(30頁).pdf(30頁珍藏版)》請在三個皮匠報告上搜索。
1、2 0 2 3 年深度行業分析研究報告多模態成為共識,3D將是下一個重點突破方向AI+3D:前景廣闊,仍面臨諸多技術挑戰當前海外AI+3D探索進展123CONTENTS目錄CCONTENTS專 業 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所1多模態成為共識,3D將是下一個重點突破方向5不同模態對應的人工智能技術與應用展望不同模態對應的人工智能技術與應用展望圖表:生成式AI達到人類創作者水平的時間資料來源:紅杉匯,中泰證券研究所61.1 文生文(文生文(Text to Text)文生文(Text to Text)是AIGC行業最先實現
2、的功能,也是ChatGPT等一系列大模型誕生以來被大家體驗最多的功能。目前,文生文模型中被應用較多的是OpenAI的GPT系列大模型。ChatGPT率先支持以更連貫自然的語法對輸入的問題進行回答。率先支持以更連貫自然的語法對輸入的問題進行回答。GPT系列基于Transformer 架構對序列數據中的長距離依賴進行建模,同時OpenAI使用了來自互聯網的大量文本數據,包括書籍、文章和網站,來對GPT模型進行無監督學習訓練。目前,GPT系列已被用于廣泛的自然語言處理任務,包括語言翻譯、文本補全和文本生成。GPT-1:發布于2018年6月,參數量1.17億;GPT-2:發布于2019年2月,參數量1
3、5億;GPT-3:發布于2022年5月,參數量1750億;ChatGPT:發布于2022年11月,參數量15億,專門為會話任務而設計和訓練。圖表:ChatGPT中文對話示例資料來源:騰訊新聞,中泰證券研究所圖表:ChatGPT英文對話示例資料來源:騰訊新聞,中泰證券研究所71.2 文生代碼(文生代碼(Text to Code)ChatGPT的出現,不僅讓人機對話更為連貫、自然、有條理,且ChatGPT本身即具備豐富的代碼知識積累,可根據人類語言提示自動生成代碼,也可為用戶回答一般編程問題、代碼測試與改進、代碼翻譯等功能。不過,ChatGPT的誕生并不專門針對代碼,并且可能無法無縫集成到用戶的工
4、作流程中。除ChatGPT外,目前市面上已有很多專業AI工具在文生代碼方面具備相當的水平。具有代表性的工具如GitHub Copilot、Codex等。GitHub Copilot:Github與與OpenAI共同開發的共同開發的AI驅動的編程助手。驅動的編程助手。它能夠直接在用戶的編輯器中提供代碼片段或者整個函數的建議,以幫助用戶更快地編寫和完成代碼。這一工具可以被看作是一個自動的代碼完成工具,它能理解自然語言,也能理解代碼本身的上下文。Copilot 在 GitHub 上可用的公共存儲庫上接受過訓練,能夠處理各種編程語言和框架。Codex:OpenAI公司推出的公司推出的 GPT-3 的多
5、個派生模型之一。的多個派生模型之一。它是基于GPT語言模型、使用代碼數據進行 Fine-Tune而訓練出的專門用于代碼生成與文檔生成的模型。Codex 能夠幫助程序員自動補全代碼、直接生成代碼、自動補充測試樣例,并支持多種編程語言。圖表:ChatGPT生成代碼示例資料來源:騰訊云開發者社區,中泰證券研究所圖表:GitHub Copilot生成代碼示例資料來源:少數派,中泰證券研究所81.3 文生圖像(文生圖像(Text to Image)2022 年前,文生圖的模型以生成性對抗網絡(GANs)為主。但因為在實踐中存在明顯不足,甚至還不如用Photoshop 等工具直接創作,無法用于商業化。從2
6、021年OpenAI提出DALL E模型和CLIP(Contrastive Language-lmage Pre-training,對比圖文預訓練)開始,各大公司開始不斷推出新的文生圖模型,從生成效果和效率上相對于以前的文生圖方法都提升了一大截。特別是2022年8月Stable Diffusion正式面世引領AIGC的行業發展,其作為一個迅速火出圈的AI技術,以極快的速度吸引了大量關注。同時,這也奠定了Diffusion 模型在文本生成圖像領域的核心方法地位。圖表:AI文生圖模型陣營及簡史資料來源:中國AIGC 文生圖產業白皮書 2023,中泰證券研究所91.3 文生圖像(文生圖像(Text
7、to Image)代表公司)代表公司Midjourney 目前,通用文生圖主要公司及產品工具包括Midjourney、Stability.AI、Disco Diffusion、DALL E模型等,垂直文生圖主要公司及產品工具則包括looka(Logo 與網站設計)、NovelAI(二次元形象生成),Scenario(游戲資產生成),以及Lensa(頭像生成)。Midjourney:Midjourney 是一款由Midjourney研究實驗室開發的人工智能程序,可根據文本生成圖像,于 2022年3年正式面世,用戶通過與 Midjourney bot 進行對話式交互,提交 Prompt(文本提示詞
8、)來快速獲得想要的圖片。Midjourney 參考了 CLIP 及 Diffusion,構建了自己的閉源模型,抓取公開數據進行訓練,并構建了 Discord 中的Midjourney bot 應用。作為應用層公司,Midjourney 收集用戶反饋數據,迭加技術的進步,不斷迭代模型。Midjourney 采取 SaaS 訂閱制模式。最初使用時,用戶可以免費生成 25 張照片。之后按照訂閱制收費。月付制為 10、30、60 美元,或者使用年付制,價格為 8、24、48 美元/月。2022 年 3 月,Midjourney 啟動邀請制 Beta 版本。因為文生圖本身具有極強的吸引力,且 Midjo
9、urney 創作的圖片質量很高,所以很快就吸引了大量用戶。后續經多次迭代后,目前Midjourney已迭代至v6版。圖表:Midjourney Discord 社群界面資料來源:36Kr,中泰證券研究所圖表:Midjourney生成圖片效果示例資料來源:36Kr,中泰證券研究所101.4 文生視頻(文生視頻(Text to Video)相較文生圖像,受制于文生視頻技術難度、計算難度、數據要求、多領域融合技術挑戰等因素,文生視頻領域的進展則較為緩慢。直到2023年2月Runway發布首個AI編輯模型Gen-1,文生視頻領域才迎來屬于自己的iPhone時刻,自此之后一年內,文生視頻技術飛速發展,生
10、成的視頻從時長、連續性、視頻質量、視頻合理性均有大幅提升。文生視頻的文生視頻的iPhone時刻:時刻:Runway先后發布先后發布Gen-1、Gen-2。1)2023年2月,之前參與開發Stable Diffusion最初版本的Runway提出了首個AI編輯模型Gen-1,Gen-1可以在原視頻的基礎上,編輯出用戶想要的視頻。2)2023年3月,Runway很快又推出了Gen-2的內測版本,并于6月份正式對外發布。Gen-2剛開始發布時還只能生成4秒鐘的視頻,每個用戶的免費試用額度為105秒,到了8月份,生成視頻的最大長度便從4s提升到了18s;9月,新增導演模式,可以控制鏡頭的位置和移動速度
11、。3)2023年11月3日,Runway的Gen-2發布里程碑式更新,支持4K超逼真的清晰度作品,并于11月21日上線“涂哪動哪”的運動筆刷新功能。2023年年11月月16日,日,Meta發布生成式視頻模型發布生成式視頻模型Emu Video。該模型既支持靈活的圖像編輯,也支持根據文本和圖像生成高分辨率視頻。根據展示的demo,Emu VIDEO 已經可以支持 4 秒的視頻生成。2023年年11月月18日,字節發布日,字節發布PixelDance。PixelDance給出了兩種不同的視頻生成模式。1)基礎模式()基礎模式(Basic Mode),),用戶只需要提供一張指導圖片+文本描述,Pix
12、elDance 就可以生成有高度一致性且有豐富動態性的視頻,其中指導圖片可以是真實圖片,也可以利用現有的文生圖模型生成。2)高級魔法模式()高級魔法模式(Magic Mode),),在這種模式下,用戶需要提供兩張指導圖片+文本描述,可以更好地生成更有難度的各種炫酷特效鏡頭。2023年年11月月21日,日,Stability AI發布了自家的生成式視頻模型發布了自家的生成式視頻模型Stable Video Diffusion(SVD),),該模型支持文本到視頻、圖像到視頻生成,并且還支持物體從單一視角到多視角的轉化(即3D合成)。2023年年11月月29日,日,Pika結束測試版運行,正式發布結
13、束測試版運行,正式發布Pika 1.0。Pika 1.0可支持對于視頻的實時編輯和修改,可根據已有的素材直接擴展視頻,生成不同高寬比的內容,亦可直接在視頻中添加想要的素材。userid:93117,docid:155931,date:2024-03-07,111.4 文生視頻的重大突破:文生視頻的重大突破:OpenAI發布發布Sora 2024年2月16日,OpenAI正式發布文生視頻大模型Sora。該模型被視為文生視頻領域的革命性突破。Sora的能力:的能力:Sora 是一種基于擴散模型和 Transformer 架構的 Al 視頻生成模型,它可以根據用戶提供的文本指令生成最高長達一分鐘的復
14、雜視頻內容。與傳統的視頻生成工具相比,Sora 能夠細致地理解用戶提示中的內容,并生成具有視覺品質和連貫性的視頻,展現出了對現實世界的深刻理解。圖表:Sora生成視頻案例:東京街頭漫步的女子(時長一分鐘)資料來源:OpenAI,CSDN,中泰證券研究所圖表:Sora生成視頻案例:野外雪地與狗玩耍(時長4秒)資料來源:OpenAI,CSDN,中泰證券研究所121.4 文生視頻的重大突破:文生視頻的重大突破:OpenAI發布發布Sora 圖表:Sora生成“兩艘海盜船在一個咖啡杯中航行、互相戰斗的逼真特寫視頻”歸納而言,Sora的突破之處主要體現在三點:生成視頻時長實現突破,可達一分鐘。生成視頻時
15、長實現突破,可達一分鐘。之前的較多文生視頻模型都只支持生成4秒的短視頻,而Sora可支持長達生成一分鐘的視頻,且視頻質量始終保持較高水準。生成視頻可保持三維空間的連貫性。生成視頻可保持三維空間的連貫性。Sora 能生成帶有動態視角變化的視頻。當攝像機位置和角度變動時,視頻中的人物和場景元素能夠在三維空間連貫移動,而且即使人物、動物或物體被遮擋或移出畫面,Sora 也能保持長時間視頻的連續性。同樣,它能在同一視頻樣本中多次展示同一角色,并確保外觀一致。具備初步的物理規則理解能力,具備初步的物理規則理解能力,不過當前理解復雜場景和規律有難度,且對事物發生的因果、時序和空間關系理解不不過當前理解復雜
16、場景和規律有難度,且對事物發生的因果、時序和空間關系理解不足。足。OpenAI 將 Sora 視為“能夠理解和模擬現實世界的模型的基礎”,英偉達高級科學家 Jim Fan也認為“Sora 實際實際上是一款基于數據的物理模擬引擎,上是一款基于數據的物理模擬引擎,它能夠模擬出真實或虛構的世界?!辈贿^,就已生成的案例來看,Sora在深刻理解物理規律上仍然存在可提升的地方,例如不能準確模擬許多基本交互的物理現象,如玻璃碎裂。其他一些形式的交互,如吃食物,也并不總能產生正確的物體狀態變化。圖表:Sora生成“玻璃杯打碎溢出紅酒”時產生bug131.4 SORA之后的下一步:文生之后的下一步:文生3D S
17、ora之后的新方向:之后的新方向:AI賦能文生賦能文生3D建?;虺蔀樾掳l展趨勢。建?;虺蔀樾掳l展趨勢。除了視頻時長、多角度拍攝連貫性上之外,Sora最大的突破在于其對物理規律開始有了真正意義上的理解,但也可以看到,Sora對物理規律的理解仍然有較大的提升空間,而這一步的提升或對應相應的產業潛在機會。未來隨著數字化的持續發展,3D資產數量的快速增長,3D建模的自動化生成或成為新的發展風口,而以各種大模型為代表的AIGC生產能力賦能3D建模,以及文生3D需求持續增長,都將促進AI賦能3D建模的快速發展。14CONTENTS目錄CCONTENTS專 業 領 先 深 度 誠 信專 業 領 先 深 度
18、誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所2AI+3D:前景廣闊,仍面臨諸多技術挑戰152.1 何為何為3D建模建模圖表:3D建模與應用資料來源:頭豹研究院,中泰證券研究所 什么是什么是3D建模:建模:3D建模指的是使用軟件來創建三維對象或形狀的數學表示形式的過程。建模指的是使用軟件來創建三維對象或形狀的數學表示形式的過程。3D建模技術和3D模型廣泛應用于醫療、傳媒娛樂、建筑工程、科學研究等多個行業領域。162.1 3D建模的兩種技術方式建模的兩種技術方式 曲面建模和多邊形建模是曲面建模和多邊形建模是3D建模兩大流行的建模方式。建模兩大流行的建模方式。曲面建模使用數學語言精確描
19、述各種曲面形體,用于工業制造曲面建模使用數學語言精確描述各種曲面形體,用于工業制造行業;多邊形建模使用網格單元擬合集合體,多用于娛樂影視行業行業;多邊形建模使用網格單元擬合集合體,多用于娛樂影視行業。圖表:曲面建模(NURBS建模)的特點與步驟資料來源:頭豹研究院,中泰證券研究所 曲面建模,也叫做曲面建模,也叫做NURBS建模,是一種基于幾何基本體建模,是一種基于幾何基本體和繪制曲線的和繪制曲線的3D建模方式,建模方式,其建模底層邏輯是用數學語其建模底層邏輯是用數學語言精確描述各種曲面形體。言精確描述各種曲面形體。曲面建模的模型產品是由曲線構建曲面組合而來,由于曲線具有平滑和最小特性,使得曲面
20、建模對于構建各種有機 3D 形狀十分有用。使用曲面建模能夠制作出任何形狀的、精度非常高的三維模型,這一優勢使得ISO頒布的STEP中把NURBS作為定義工業產品幾何形狀的唯一數學方法。曲面建模常用于參數化的造型設計中,用于支持高精度曲面建模常用于參數化的造型設計中,用于支持高精度的數字化制造產業,但其高精度的特點也使得曲面建模的數字化制造產業,但其高精度的特點也使得曲面建模算法復雜,難度較高,模型計算時間較長。算法復雜,難度較高,模型計算時間較長。多邊形建模,是將一個完整的模型由無數個多邊形面組多邊形建模,是將一個完整的模型由無數個多邊形面組合而成,合而成,其建模底層邏輯是用網格單元去擬合幾何
21、形體。其建模底層邏輯是用網格單元去擬合幾何形體。建模過程中,三角形數量越多,模型精度越高,建模速建模過程中,三角形數量越多,模型精度越高,建模速度越慢。度越慢。多邊形建模通過合并三角形來減少三角形數量,從而提高計算性能,加快計算速度,但也使得模型產品精度不足,難以用于對追求精確的工程軟件中。早期,多邊形建模主要用于游戲,到現在,多邊形建模多邊形建模已經廣泛應用于各種對計算速度要求較高、而精確性要已經廣泛應用于各種對計算速度要求較高、而精確性要求不高的場合,求不高的場合,包括視覺渲染、影視特效等場景。圖表:多邊形建模的特點與步驟資料來源:頭豹研究院,中泰證券研究所172.1 3D建模市場現狀與預
22、測建模市場現狀與預測2021年,中國年,中國3D建模軟件市場空間達到建模軟件市場空間達到103.4億元,娛樂是當前市場增長主要推動力。未來,隨著元宇宙等新概念賦億元,娛樂是當前市場增長主要推動力。未來,隨著元宇宙等新概念賦能,市場空間將持續擴張,預計到能,市場空間將持續擴張,預計到2026年,市場規模將達到年,市場規模將達到195.7億元億元。在中國,在中國,3D建模軟件當前主要用于工業行業、建筑行業、動漫影視行業和游戲行業。建模軟件當前主要用于工業行業、建筑行業、動漫影視行業和游戲行業。2022年中國3D建模軟件市場中,游戲市場應用占比34.3%位列第一,3DCAD 和BIM分別以31.3%
23、、30.5%位列二三位。圖表:中國3D建模軟件市場規模及預測(單位:億元)資料來源:頭豹研究院,中泰證券研究所103.4195.705010015020025020212026中國3D建模軟件市場CAGR=13.6%圖表:2022年中國3D建模軟件市場規模占比資料來源:共研產業咨詢,中泰證券研究所34.3%31.3%30.5%3.9%游戲3DCADBIM動漫影視182.2 AI賦能賦能3D建模:創意與技術的結合建模:創意與技術的結合 什么是什么是AI+3D建模:建模:AI+3D建模是利用人工智能技術,自動化地生成高質量的 3D 模型的過程。傳統的 3D 建模需要用戶花費大量時間和精力進行手工創
24、作,而 AI+3D建模則通過訓練機器學習算法,使計算機能夠自動學習和生成建模則通過訓練機器學習算法,使計算機能夠自動學習和生成 3D 模模型,型,極大地提高了效率和準確性。AI+3D建模特點與功能:建模特點與功能:高效快速:高效快速:AI賦能3D建模能夠在短時間內完成大量的 3D 模型生成任務,省去了人工制作的繁瑣過程,大大提高了生產效率。高精度準確:高精度準確:借助機器學習和深度學習算法,AI賦能3D建模能夠分析海量的 3D 數據,并根據學習到的規律生成高度準確的 3D 模型,減少了人為誤差。多領域適用:多領域適用:無論是游戲、影視、建筑、產品設計還是虛擬現實等領域,AI賦能3D建模都能夠提
25、供可定制化的解決方案,滿足各行各業的需求。AI賦能賦能3D建模的意義:建模的意義:3D建模是未來內容創作者工作中的一個環節,但未來的建模是未來內容創作者工作中的一個環節,但未來的3D世界需要足夠龐大的世界需要足夠龐大的3D資產作為其資產作為其中的“基建”,其建設效能提高有著重要的意義。中的“基建”,其建設效能提高有著重要的意義。192.2 AI賦能賦能3D建模有望提升相關研發設計軟件市場規模建模有望提升相關研發設計軟件市場規模 在工業設計領域,在工業設計領域,AI+3D建模主要可以應用于建模主要可以應用于CAD、BIM、EDA三大設計工具三大設計工具。對于CAD而言,AI賦能CAD可以加快三維
26、模型的設計過程;對于BIM,AI賦能BIM可以幫助BIM軟件優化工程設計如管線排布方案,提升工程項目的生產效率、提高建筑質量、縮短工期、降低建造成本。對于EDA,隨著2.5D/3D IC設計的加速發展,AI賦能EDA有望快速實現系統級全流程3D設計。綜上,AI賦能3D建模進一步提升了CAD、BIM、EDA三類研發設計類工具的價值量,從而有望擴大其當前市場規模。圖表:全球BIM市場規模及預測(單位:億美元)資料來源:Transparency Market Research,中泰證券研究所圖表:全球CAD市場規模(單位:億美元)資料來源:CIMdata,e-works,中泰證券研究所圖表:全球ED
27、A市場規模及預測(單位:億美元)資料來源:CIMdata,e-works,中泰證券研究所5560657075808520172018201920202021全球CAD市場規模15.9%15.6%15.9%15.9%15.9%14.6%15.2%15.8%14.8%15.8%15.4%14%14%15%15%16%16%17%020406080100120140160全球BIM行業市場規模增速9.0%11.1%2.1%9.6%17.4%0%2%4%6%8%10%12%14%16%18%20%020406080100120140201620172018201920202021全球EDA市場空間增速
28、20AI+3D建模的挑戰點建模的挑戰點 AI+3D建模發展前景遠大,但當前也面臨較多挑戰:建模發展前景遠大,但當前也面臨較多挑戰:目前來看,AI主要被用于輔助3D建模,例如自動化和簡化流程、智能化幾何形狀生成、紋理映射、材質匹配等。長遠來看,AI在3D建模中從輔助變為主導力量是發展的大趨勢,但這一趨勢也面臨較多的挑戰,主要包括以下幾方面:3D數據與資產缺乏:數據與資產缺乏:AI創作對于數據,算法等有著極高的要求。3D內容因其發展歷史短、覆蓋行業少、公開傳播內容少,導致3D數據具有天然稀缺性,目前比較大的3D數據集基本在百萬級別,相比于十億級別的圖像數據集有三個數量級的差距,并且數據質量和一致性
29、較差,制約了模型的“想象力”,比如沒有見過的物品或者組合。這些因素限制下,目前3D數據集難以訓練出高質量的3D模型。AI訓練難度高:訓練難度高:三維模型的數據量、復雜度遠高于2D的文字和圖片,直接計算學習的難度和成本遠高于2D數據,AI如果直接使用2D擴展成3D模型,即使擁有足夠的數據,但極大的計算量會導致速度的劣勢。同時,撰寫腳本使其創作符合要求的作品也是一個巨大的難題。AI實時渲染技術有限:實時渲染技術有限:目前AI渲染能力暫時無法滿足真正的使用需求,多次輸入相同關鍵詞的情況下,渲染的圖會逐漸變得模糊甚至走形。商業化落地難度大:商業化落地難度大:目前一些較火的建模工具都尚未開源,AI的3D
30、創作在落地場景、可行性的商業化路徑、技術風險等方面都尚無法達到工業化的生產標準,更多仍處于前期探索階段。21CONTENTS目錄CCONTENTS專 業 領 先 深 度 誠 信專 業 領 先 深 度 誠 信中 泰 證 券 研 究 所中 泰 證 券 研 究 所3當前海外AI+3D探索進展223.1 非工業場景、生成式非工業場景、生成式AI+3D建模的兩大路線建模的兩大路線 從實現路徑上,生成式從實現路徑上,生成式3D可以粗略劃分為“原生可以粗略劃分為“原生3D”和“和“2D升維”兩種不同技術路線。升維”兩種不同技術路線。核心區別在于是直接文字到核心區別在于是直接文字到3D,還是先到,還是先到2D
31、圖像再進一步通過擴散模型或者圖像再進一步通過擴散模型或者NeRF生成生成3D。兩種路徑的選擇對于模型的生成質量、速度和豐富兩種路徑的選擇對于模型的生成質量、速度和豐富性有決定性的影響。性有決定性的影響。圖表:3D生成技術路線及典型模型資料來源:讀樹一幟,騰訊網,中泰證券研究所233.1 非工業場景、生成式非工業場景、生成式AI+3D建模的兩大路線各有優缺點建模的兩大路線各有優缺點 原生原生3D派:派:原生原生3D 路線主要特點是使用路線主要特點是使用3D數據集進行訓練,從訓練到推理都基于數據集進行訓練,從訓練到推理都基于 3D 數據,通常也是基于數據,通常也是基于diffusion模型和模型和
32、transformer模型的方法進行訓練,實現從文字模型的方法進行訓練,實現從文字/圖片輸入直接到圖片輸入直接到3D資產的生成。資產的生成。優勢:優勢:1)生成速度快:)生成速度快:2D升維通常利用 2D 擴散生成模型來指導 3D 表示(如 NeRF)的優化,需要很多步迭代導致非常耗時,而3D原生的生成通??梢栽?min以內完成,類似2D的文生圖;2)生成質量高:)生成質量高:在特定范圍內能夠生成質量較高的3D資產,比如通過高質量的3D人臉數據可以訓練出4k以上高質量的3D人臉,同時避免了2D升維的多面等問題;3)兼容性好:)兼容性好:通常有幾何和紋理的分別生成,可以直接在標準圖形引擎中進行后
33、續編輯。劣勢:劣勢:豐富性不足,豐富性不足,原生3D生成的問題在于缺乏高質量、大規模的3D數據集。代表模型:代表模型:Get3D(Nvidia)、Shap-E(OpenAI)、Dreamface(影眸科技)2D升維派:升維派:通過通過 2D 生成模型(如生成模型(如 Imagen、diffusion model)生成多個視角的)生成多個視角的 3D 視圖,然后用視圖,然后用 NeRF 重建。重建。背后背后核心邏輯是核心邏輯是3D數據集的匱乏難以滿足豐富的數據集的匱乏難以滿足豐富的3D生成需求,生成需求,在2D的文生圖紅紅火火的背景下開始越來越多的研究者試圖基于海量的2D圖像數據來實現3D的生成
34、,并取得了飛速的進展。優勢:優勢:可以利用大量的2D圖像數據進行預訓練,數據的豐富性使生成的3D模型復雜度提高,富有“想象力”。劣勢:劣勢:1)生成速度慢:)生成速度慢:NeRF的訓練和推理過程都需要大量的計算資源。因為需要對3D空間進行密集的采樣,這也導致了生成速度較慢;2)生成質量較低)生成質量較低:NeRF更擅長合成視角而非精確重建,受限于采樣數量、視角數量及計算資源的平衡,目前2D升維生成3D在分辨率、紋理細節都還比較粗糙,以及2D升維3D過程中的一些非理想效應的存在,導致整體的生成質量還有較大提升空間;3)兼容性問題:)兼容性問題:NeRF格式無法直接在Unity等3D引擎中進行后續
35、的編輯,需要經過一定的轉換處理才能編輯。代表模型:代表模型:Dreamfield、Dreamfusion(Google)、Point-E(OpenAI)、Magic3D(Nvidia)、ProlificDreamer(生數科技)、One-2345。243.1.1 3D原生派:原生派:OpenAI的的Shap-E 2023年5月,繼文本生成圖片模型 DALLE 之后,OpenAI 再次發布了 ShapE 模型。用戶可以直接輸入文本,用于創建逼真且多樣化的 3D 模型。ShapE 并不僅只是一個3D 模型生成器,而且可以直接生成隱式函數(implicit functions)的參數,而這些參數可以
36、渲染紋理網格(textured meshes)和神經輻射場(NeRF)。這意味著 ShapE 和當前僅輸出點云(point clouds)或體素(voxels)的模型不同,可以生成具有細粒度紋理和復雜形狀的高質量可以生成具有細粒度紋理和復雜形狀的高質量 3D 資產,這使得生成的模型可以輕松資產,這使得生成的模型可以輕松導入到導入到3D軟件中進行后續處理。軟件中進行后續處理。ShapE的具體訓練過程如下:訓練一個3D編碼器,將3D資源確定性地映射為隱含函數的參數;在編碼器的輸出上訓練一個條件擴散模型。在大量成對的3D和文本數據集上訓練后,Shap E能夠在短短幾秒鐘內生成復雜且多樣化的3D資源。
37、較上一代3D生成模型Point-E而言,Shap-E收斂速收斂速度更快,生成質量更好。度更快,生成質量更好。OpenAI 展示了 ShapE 的一些實操結果,例如一碗食物,一只企鵝,一只體素化的狗,一個篝火,一把鱷梨形的椅子等,結果顯示整個圖片可以在幾秒內完成渲染。圖表:Shap-E一些生成3D模型的示例資料來源:IT之家,中泰證券研究所253.1.2 2D升維派:升維派:Google的的DreamFusion 2022年9月29日,Google發布了文生3D的技術DreamFusion。DreamFusion利用預訓練的 2D 文本到圖像擴散模型,首次在無需 3D 數據的情況下完成開放域的文
38、本到 3D 的合成。DreamFusion的工作原理:通過的工作原理:通過 2D 生成模型(如生成模型(如 Imagen)生成多個視角的)生成多個視角的 3D 視圖,然后用視圖,然后用NeRF(神經輻射場)(神經輻射場)重建,合成得到物體的重建,合成得到物體的3D模型。模型。具體如下:文本轉文本轉2D:利用Imagen模型,將文本提示生成為對應二維圖像;DreamFusion的優化迭代:的優化迭代:1)隨機采樣攝像頭和光線,2)渲染來自該攝像頭的NeRF圖像,并使用光線著色,3)計算SDS(分數蒸餾采樣,Score Distillation Sampling)損失相對于NeRF參數的梯度,4)
39、用優化器更新NeRF參數。DreamFusion的優勢與不足:的優勢與不足:優勢:無需3D數據即可完成文本到3D的生成;不足:1)受限于Imagen分辨率,3D 合成模型往往缺乏精細細節,而使用更高分辨率的的擴散模型和更大的 NeRF則會產生多層迭代帶來的生成效率問題;2)不同攝像頭視角間的一致性較難以保證。圖表:DreamFusion的優化迭代步驟圖示資料來源:AI-Scholar,中泰證券研究所圖表:NeRF工作原理圖解資料來源:AI-Scholar,中泰證券研究所263.1.2 2D升維派:升維派:NVIDIA的的Magic3D 2022年年11月,英偉達推出了月,英偉達推出了AI工具工
40、具 Magic3D,可以基于文本描述自動生成,可以基于文本描述自動生成 3D 模型,對標谷歌的模型,對標谷歌的 DreamFusion。與 DreamFusion 使用文本到圖像模型生成 2D 圖像,然后優化為體積 NeRF(神經輻射場)數據的方式類似,Magic3D 的渲染過程也分為兩個步驟,將低分辨率生成的粗略模型優化為高分辨率,最終生成高保真的 3D 內容,并且很容易在標準圖形軟件中導入和可視化。第一階段,Magic3D 優化了類似于 DreamFusion 的粗略神經場表征,以實現具有基于哈希網格(hash grid)的內存和計算的高效場景表征。第二階段,該方法切換到優化網格表征。這一
41、步驟在高達 512 512 的分辨率下利用擴散先驗。由于 3D 網格適用于快速圖形渲染,可以實時渲染高分辨率圖像,因此該方法利用基于光柵化的高效微分渲染器和相機特寫來恢復幾何紋理中的高頻細節。圖表:Magic3D技術pipeline圖示資料來源:NVIDIA,將門創投,中泰證券研究所273.1.2 2D升維派:升維派:NVIDIA的的Magic3D Magic3D 還可以執行基于提示的 3D 網格編輯:給定低分辨率 3D 模型和基本提示,可以更改文本從而修改生成的模型內容。此外,作者還展示了保持畫風,以及將 2D 圖像樣式應用于 3D 模型的能力。Magic3D生成效果對比:生成效果對比:為了
42、對比實際應用效果,英偉達的研究人員把 Magic3D 和谷歌的 DreamFusion 在 397 個文本提示生成的內容上進行了比較。平均而言,粗略模型生成階段花費 15 分鐘,精細階段則訓練 25 分鐘,所有運行時間均在 8 塊英偉達 A100 GPU 上測得。無論是DreamFusion還是Magic3D,目前而言他們更多的可能用途可能均集中于給游戲和元宇宙世界提供制作海量 3D 模型,而且讓所有人都可以上手使用。圖表:Magic3D生成圖片示例資料來源:NVIDIA,將門創投,中泰證券研究所圖表:Magic3D可修改提示詞來修改生成的模型資料來源:NVIDIA,將門創投,中泰證券研究所2
43、83.2 AI+3D之于工業場景:衍生式設計(生成式設計之于工業場景:衍生式設計(生成式設計/創成式設計)創成式設計)和非工業場景有所區別的是,由于工業生產制造場景對準確度、精度的要求較高,目前由于工業生產制造場景對準確度、精度的要求較高,目前AI賦能賦能3D建模在工業制造領域建模在工業制造領域主要集中于研發設計階段,且目前仍以輔助式手段的角色存在。主要集中于研發設計階段,且目前仍以輔助式手段的角色存在。在工業生產制造領域內,AI+3D主要以衍生式設計(又稱生成式設計/創成式設計)的形式存在。衍生式設計是模仿自然的進化設計方法。衍生式設計是模仿自然的進化設計方法。設計師或工程師將設計目標輸入到
44、生成設計軟件中,以及材料,制造方法和成本限制等參數。軟件會探索解決方案的所有可能排列,快速生成設計備選方案,然后軟件自己測試并從每次迭代中學習哪些有效,哪些無效。具體步驟如下:設計師根據重量,成本,材料,體積和強度等約束條件輸入要求。計算機使用算法和AI生成數千種設計,同時對每種設計進行性能分析。設計師研究選項,并允許改變設計目標,允許人類進入設計迭代循環。計算機還使用其AI來創建預先驗證的解決方案。該文件已導出,可以生成原型。如果設計師和工程師對結果不滿意,或者希望探索其他選項,可以根據需要重復步驟3。圖表:椅子的Autodesk Dreamcatcher示例設計資料來源:埃森哲,中泰證券研
45、究所圖表:當前衍生式設計的主要應用領域資料來源:工業設計小朱,中泰證券研究所293.2.1 PTC:Creo的創成式設計功能的創成式設計功能 PTC的Creo產品集成了創成式設計及與其密切相關的拓撲優化工具。Creo 創成式設計利用云的強大功能優化產品設計。同時探索眾多創新設計選項,并自動突出顯示選項。創成式設計可在 Creo 設計環境中提供高質量、低成本、可制造的設計。借助 Creo 創成式設計,在更短的時間內交付最佳設計。Creo把創成式設計分為兩個版本,單機可用的稱為創成式拓撲優化(創成式拓撲優化(Generative Topology Optimization,GTO),),另外一種通
46、過云,稱為創成式設計擴展(創成式設計擴展(Generative Design Extension,GDX)。GDX利用云的力量同時生成多個設計,自動識別出最佳選項以供用戶審核。在GDX中生成的設計可以返回Creo進行進一步細化和分析。某種程度上,GDX強化了GTO的功能,以進一步節省時間和材料成本、減少浪費并最終生成具有更高性能的設計。圖表:PTC的Creo具備創成式設計功能資料來源:PTC官網,中泰證券研究所303.2.2 Autodesk:面向制造業和:面向制造業和AEC提供衍生式設計能力提供衍生式設計能力 Fushion 360提供面向制造業的衍生式設計能力。提供面向制造業的衍生式設計能
47、力。Autodesk在Fushion 360中添加了衍生式設計能力,使得其可以為制造業用戶提供衍生式設計選項,從而加快其產品開發流程。Fushion 360可生成 CAD 就緒的可編輯幾何形體,以立即在 Fusion 360 中進行編輯或導出到用戶所選的 CAD 軟件,設計出來的衍生式設計幾何形體與 Inventor 無縫集成,可最大限度地提高效率和改進協作。具體而言,Fushion 360的衍生式設計能力在制造業中的優勢主要體現在以下幾方面:輕量化:輕量化:快速確定解決方案以最大限度減少重量和材料使用量,同時保持性能標準、滿足設計目標并遵循工程約束。性能影響:性能影響:使用衍生式設計評估多種
48、制造方法,并找到解決方案來提高和優化產品耐用性并消除薄弱區域。零件整合:零件整合:探索一系列設計解決方案,使用戶能夠將多個零部件整合為實體零件,從而降低裝配成本并簡化供應鏈??沙掷m性:可持續性:利用衍生式設計來減輕產品重量、減少生產浪費并幫助選擇更具可持續性的材料,從而實現可持續性目標。圖表:Fushion 360為制造業提供衍生式設計能力資料來源:PTC官網,中泰證券研究所313.2.3 Zuken:發布由人工智能驅動的:發布由人工智能驅動的PCB Layout工具工具 在2023年9月份的研討會上,Zuken宣布即將推出一種革命性的人工智能輔助PCB設計方法。這項名為AIPR(Autono
49、mous Intelligent Place and Route)的新技術將作為Zuken現有的CR-8000平臺的一部分,預計于2024年第一季度提供,通過利用機器學習,使 PCB 設計的效率和準確性達到新的水平。這種AIPR技術包括一款名為智能布線器(Smart Autorouter)的新型布線引擎,該引擎基于一種名為“Brain(大腦)”的創新技術進行機器學習。Brain 將分為三個能力階段,從基礎Brain開始,然后是未來的擴展動態Brain,以及最高級別的自主學習Brain。圖表:Zuken即將發布的人工智能驅動的PCB Layout工作機理圖示資料來源:吳川斌的博客,中泰證券研究所第一階段,第一階段,基礎Brain 通過學習 Zuken 的設計實例庫和現有的設計專業知識,在基礎階段徹即可底改變傳統的PCB 設計體驗。第二階段,第二階段,Zuken的“動態Brain”將從新創建的PCB設計中學習,利用過去的設計示例并將其集成到人工智能算法中。將客戶的最佳實踐與人工智能見解相結合將加速設計迭代并顯著提高整體生產力。第三階段,第三階段,對應的是自主Brain,這是一個人工智能驅動的持續學習模式動力源,突破了創造力的界限。自主Brain 在每個項目中自我改進的能力將預示著人工智能驅動創新的新時代,并且僅在 Zuken 的 CR-8000 平臺中提供。