《未盡研究&啟明創投:2023生成式AI報告(37頁).pdf》由會員分享,可在線閱讀,更多相關《未盡研究&啟明創投:2023生成式AI報告(37頁).pdf(37頁珍藏版)》請在三個皮匠報告上搜索。
1、啟明創投 未盡研究State of Generative AI 2023生成式 AI 啟明創投 未盡研究State of Generative AI 20232啟明創投 未盡研究概要概要如果說 2022 年被稱為生成式人工智能之年,擴散模型應用取得突破,ChatGPT 出世,一系列開創性的研究論文發表,2023 年則把大模型推向了一個高峰,GPT-4 的發布,標志著生成式人工智能,進入了面朝通用人工智能創新應用的階段。應用、研究、監管,合力開辟著生成式人工智能的發展之路。創新應用生成式人工智能的生態包括了基礎設施層、模型層與應用層,創新在每一個層面發起,競爭也在科技巨頭、行業龍頭和初創公司之間
2、展開。在整個生態中,受益于以參數規模為代表的大模型不斷擴張,算力目前是最稀缺的資源,也處于最容易獲利的要津。算力是大模型成本結構中最大的一塊,GPU 的性能,決定了這個新興行業的步調。但是,GPU 性能提升的速度,已經落后于大模型訓練和推理需求的增長。面對這一革命性的技術,不論是主動還是被動,企業都被卷入其中。不管是技術的守成者、創新者還是采納者,業務模式都將發生變化,進而影響企業的發展。當前,生成式 AI 尚處于技術發展的早期階段,基礎架構和核心技術并不成熟;科技巨頭忙于研發大模型,尚未顧及深度切入具體的應用場景。但巨頭何時添加相似的功能(feature)始終是懸在初創企業頭上的達摩克利斯之
3、劍,而大模型能力邊界的擴張也可能在未來擠占初創企業的發展空間,可以說,這是初創企業的藍海,但也有發展道路上的暗礁。在中國,目前從模型出發的公司受到看好,通用大模型和垂直大模型的創業如火如荼,而自建模型的應用也在努力構建著自己的壁壘,同樣,科技巨頭正在利用自身算力優勢來構建大模型。我們有理由相信,在眾多模型層和科技大廠的合力下,模型層的整體能力將進一步完善,在未來為應用層企業提供可靠的支撐。前沿研究生成式人工智能領域的一個突出特征,是研究與創新過程的密切結合,許多在企業內部實現,迅速推出用例和產品。這種研究與創業的一體化,初創企業和風險資本起到了重要的作用,而美國科技巨頭和主要人工智能企業的研究
4、投入與人才,包括一些底層技術的研究,這些年來已經超過了大學等研究機構。GPT-4 迸發出通用人工智能的“火花”,需要研究和解決的問題反而更多了,如信心校準,長期記憶,持續學習,個性化,規劃和概念跨越,透明度,認知謬誤和非理性,等等。而過去半年最重要的研究方向,是破解和理解大模型神秘而又令人興奮的智能“涌現”。大模型既需要超越對下一個詞的預測能力,也需要一個更豐富、更復雜的“慢思考”深層機制,來監督“快思考”預測下一個詞的機制。大模型不僅用來生成文章和圖片,而且可以用來當成智能代理,幫助管理和執行更復雜的任務。開源模型實現了低成本、小型化、專業化的訓練,與閉源的基礎模型競爭互補,共同推動了生成式
5、人工智能技術的應用,也加快了模型向邊緣側和移動端部署。生成式人工智能大模型日益向多模態發展,具身智能也成為一個重要研究方向,幫助生成式人工智能更好地理解和處理現實世界的復雜性和多樣性。大模型更安全、讓智能更可信,成為新興的研究熱點。生成式人工智能對于就業和經濟的廣泛影響,正在吸引經濟學、社會學、心理學等不同領域的研究興趣。但仍然需求實證性的研究。監管|安全|政策|人才生成式人工智能加快了中國、歐盟和美國的監管和立法的進程。歐盟努力在今年底讓人工智能法案生效,為全球人工智能立法定下基調。中國也預計將于明年提出綜合性的智能立法。而美國重點在于建立風險控制技術標準。中國對通用人工智能表現出很大熱情與
6、期待。地方政府中北京、上海、深圳是第一梯隊,均提出了較具雄心的人工智能科研、創新與產業目標。中國研究人員發布的論文在數量上已經超過了美國,但在金字塔頂端,無論是研究還是創業,美國仍然占據明顯的優勢??萍疾恳笕斯ぶ悄芷髽I,應該接受科技倫理審查;審查主體應該設立科技倫理(審查)委員會。美國人工智能企業較早開始設立負責任與可信人工智能部門,從去年到今年以來經過一些調整,反映出在生成式人工智能發生變革之際,企業正在尋求用更好的技術和方案,來安全和負責地部署新技術。十大前瞻基于上述研究,報告對未來一至三年的大語言模型、多模態模型和商業競爭態勢,做出了十點前瞻。State of Generative A
7、I 20233啟明創投 未盡研究目錄生態架構生態位與新物種定價模型:基礎設施層定價模型:模型層定價模型:應用層企業運營發生改變 市場格局GPT-3 之后的新公司大模型公司應用層公司語言類多模態目錄致敬 2022大模型的“慢思考”開源智能代理多模態具身智能安全與可信中美歐監管地方的 AI 雄心安全與倫理中美塔尖人才從研究到創新十大展望關于報告0506070810111213151718192123242526272830313233343637第一章 行業變革第二章 前沿研究第三章 監管、安全與人才第四章 十大展望4啟明創投 未盡研究第一章行業變革Artificial IntelligenceR
8、eport 2023行業變革State of Generative AI 2023第一章:行業變革5啟明創投 未盡研究生態架構AI 1.0 時代,需要針對特定任務,利用相關的數據研發特定模型,任務和模型耦合。AI 2.0 時代,經過大規模數據預訓練得到的大模型,帶來了極好的效果和泛化能力,可以直接被下游的各種任務使用。AI 2.0 的公司將分為三層:基礎設施層:解決大模型訓練/推理/部署的工具鏈廠商和提供 GPU 資源的智算中心。智算中心再往下是新一代AI 芯片或者下一代通用 GPU。模型層:研發大模型,并對外提供 AI 模型服務或者 API服務,包括訓練(training)和推理(infer
9、ence)時需要的 GPU 資源。除了這類輸出“水電”的底座大模型,也包括提供針對特定行業或場景的垂直模型的公司。應用層:專注于解決某個特定領域的應用公司,包括自研大模型的應用公司和利用第三方大模型的應用公司。生態架構四代底層技術的進步,催動了四波人工智能的發展。第一波小規模專家知識,用了 40 年走完;第二波淺層機器學習,用了 20 年走完;第三波深度學習,用了 8-10 年走完,并取得一定的成就。最近這一波 AI 新浪潮,以 2017年基于 Transformer 的預訓練模型為起點,并在 2020 年 GPT-3 大模型發布后突破技術奇點。圖中標紅的企業為啟明創投已布局企業。自建大模型的
10、垂直應用Adept,Runway,Character.ai,街遠科技,無限光年,云知聲利用第三方模型構建的應用Jasper,Descript,Copy.AI,TutorEva.ai應用層模型層閉源大模型及 API 服務Open AI,Cohere,Anthropic,百度文心,智譜 AI開源模型及 Model HubHugging Face,Stability,阿里云 Model Scope工具鏈AnyScale,MosaicML基礎設施層智算平臺Azure,AWS,阿里云,火山引擎,智算中心應用層State of Generative AI 2023第一章:行業變革6啟明創投 未盡研究生態位
11、與新物種生態位與新物種在生態系統中,每一個物種都擁有自己的角色和地位,即生態位。處于不同的生態位,則指示了不同物種之前的合作和競爭關系。AI 2.0 的生態同樣如此。新的“模型即服務(MaaS)”企業,以及自建模型、微調模型或調用 API 服務市場具體應用場景的企業,即這個生態中的“新物種”。這些新物種尋找著屬于自己的新市場,同時為競爭做著準備。以下是一些對于這些新物種的觀察:OpenAI 是“新物種”的代表,率先打造出具備涌現能力的大模型,激活了整個生態系統。這讓在 AI 1.0 時代有所成績的企業緊張,但又讓更多的創業者與投資者興奮。生成式 AI 的原生企業,它們遍布基礎設施層、模型層和應
12、用層。從提高研發和使用模型效率的工具鏈企業,到致力于打造下一代模型的大模型公司,再到眾多通用或著面向行業的應用公司,這些企業如火如荼的創新,為生成式AI 帶來了無限活力。云巨頭研發通用大模型,服務于自身業務,也對外開放API。微軟旗下操作系統、生產力工具、企業管理系統、代碼平臺、安全套件都擁有了副駕駛(Copilot);百度要把每個產品重做一遍。同時,這些巨頭還在開發自己的芯片,谷歌有了 TPU,微軟則是雅典娜(Athena)。芯片廠商也在拓展自己的邊界,英偉達針鋒相對地推出了DGX Cloud,它還在強化賦能元宇宙(Omniverse)與大模型工廠(AI Foundations)的云平臺。S
13、aaS 巨頭原本就是基于云的應用,正在從大模型汲取新的動能。未來,絕大多數 SaaS 企業都會是包含生成式 AI功能的 SaaS 企業。彭博等行業龍頭開始防御性地采納自有大模型技術,也盯著基礎模型的機會。此外,還有閉源與開源的路線,由于 License 的限制,開源模型并不一定可以商用,并且開源模型無法確保在未來一直迭代來匹敵閉源模型的效果。而基于閉源模型,很多企業又會擔心未來的迭代可能受制于人。應用模型云芯片芯片巨頭(英偉達)科技巨頭(微軟等)SaaS 巨頭(Salesforce 等)行業巨頭(彭博等)自建模型的應用利用第三方模型的應用MaaSGPUDGX CloudState of Gen
14、erative AI 2023第一章:行業變革7啟明創投 未盡研究亞馬遜選擇了采購 A100 芯片,自己搭建數據中心,這雖然能夠壓低一些成本,但仍然使英偉達獲利頗豐。年均成本:亞馬遜 AWS 數據中心按五年線性折舊,年均4 萬美元。服務定價:假定亞馬遜 AI 算力出租的收入,全部來自p4d.24xlarge,它向客戶提供 8 片 A100 算力性能的加速服務。(亞馬遜目前還規?;峁┗谟ミ_ V100、自研 Trainium 等硬件的算力服務,此處選取當前最主流的 A100 為測算基準。)如果承諾一年內穩定的用量(Compute Savings Plans),且不提前預付費用,目前它的每小時
15、價格為 24.21 美元(美東俄亥俄的價格)。年均收入:如果客戶一年 365 天一天 24 小時不停的租用算力,年均 21 萬美元。該項服務的毛利率:那么,亞馬遜該服務對應的毛利率將是 1-4/21=80.9%即如果生成式 AI 的生態持續擴展,市場繁榮,客戶全年無休地渴求算力,那么亞馬遜該項服務的毛利率最高可達80.9%。如果客戶只有 50%的時間用到了它,那么 8 片A100 加速服務的年均收入就降到了不足 11 萬美元,該項服務的毛利率就只有 1-4/11=63.6%,相當于外界預估的亞馬遜云服務的總體毛利率。如果用戶只有 20%的時間用到了它,那么收入只有 4 萬美元,該項服務的毛利率
16、為 0。事實上,AI 算力目前是稀缺資源,AWS 正在極大受益。定價模型:基礎設施層新的應用要有新的基礎設施。AI 2.0 的基礎設施是以提供智能算力為中心的智算中心。無論是模型還是應用,它都離不開硬件廠商或云服務商。GPU 是訓練模型與加速推理的關鍵算力硬件。大模型還拔高了對數據中心帶寬、數據存儲的門檻。云服務商會采購各類硬件,輔以冷卻系統與運維服務,構建靈活、可擴展的 IaaS平臺,按需為客戶提供算力。傳統云巨頭獲利頗豐。設備定價:假定亞馬遜直接采購英偉達組裝好的 DGX A100 平臺。它集成了 8 片 A100 GPU,配置了內存、CPU、網絡等軟硬件組件,初始售價 20 萬美元。實際
17、上,說明:基于硬件 DGX A100 采購折舊價格與亞馬遜 p4d.24xlarge 服務預購一年價格,未涉及運維與能耗等各種成本。未考慮不同地區不同時間的市場價格波動。未考慮承諾外用量的額外費用等。亞馬遜云服務毛利率估算數據來自 Bear Stearns。假設所有機器都投入生成,僅根據用戶的需求導致運轉時間有差別,并未考慮有部分機器完全閑置的情況。例如所有機器都 50%的時間運轉,而非 50%的機器完全閑置。定價模型:基礎設施層亞馬遜 AI 算力服務的毛利率,隨客戶需求提升而提升192840889779941007085916176825267733758643149582543552234
18、46(%)90%80%70%60%50%40%30%20%10%0%客戶全年無休地租用服務,該項服務的毛利率 80%??蛻糇庥貌蛔?50%,該服務毛利率 60%,相當亞馬遜云整體毛利率??蛻?AI 算力需求情況亞馬遜該項服務的毛利率State of Generative AI 2023第一章:行業變革8啟明創投 未盡研究定價模型:模型層 平均算力成本主要由 GPU 性能等決定,每 FLOP 的價格平均每 2.5 年下降 40%-50%。算力使用效率取決于軟硬件優化水平等。據谷歌 PaLM 的論文,在訓練階段,缺乏優化經驗或堆疊過多芯片,效率可能低至 20%,目前谷歌與 OpenAI 都能達到
19、50%左右。前述機構推測目前推理階段的效率在 25%左右。訓練一次類似 GPT-3 的大模型,即 1750 億參數規模,3000 億 token,需要 6*1750*108*3000*108=3.15*1023FLOP 的算力需求。如果只用 1 片 V100,在 FP16 精度的28TFLOP的理論算力下,需要訓練3.15*1023/28/(1*1012)/(365*24*60*60)=357 年;要縮短訓練時間,就要增加硬件投入,但算力使用效率就會下降。租 用 云 服 務,亞 馬 遜 剛 推 出 8 片 V100 算 力 的p3dn.24xlarge 時,預購一年(Savings Plans
20、)每小時 18.3美元。按 50%算力使用效率估算,在 2020 年時,訓練GPT-3的成本約為357*(18.3/8)*365*24/50%=1430萬美元?,F實會復雜一點。不同云服務商的可用算力資源不同,價格也不同;大模型訓練時長與并行多個模型同時訓練的行為,也影響著算力使用需求。事實上,OpenAI 采購了 GPU,還得到微軟支持,實際單次訓練成本會比估算更低;但反過來,實際上訓練一次是幾乎不可能訓練成功的,在大模型構建的過程中,存在著大量的失敗和反復,此外為保證模型迭代的更快,需要進行大量的并行訓練。即便打造出第一版大模型,后續模型的持續迭代的成本也無法避免。定價模型:模型層算力需求是
21、模型層企業成本結構中,占比最顯著的一部分。其他還包括數據收集與預處理、MLOps 工具、能源消耗等。算力需求可分為訓練與推理兩大階段。一些機構提出了各自的估算方式,它們可以用一個公式來簡單概況:每參數每 token 的算力需求是常數,在訓練階段一般為 6 FLOPs,推理階段則為 2 FLOPs。其他幾項共同導致了不同模型的不同成本,是降低成本的重要方向。參考論文:Scaling Laws for Neural Language Models 與 Semianalysis 等算力成本訓練成本推理成本訓練數據的規模提示與問答長度參數規模平均算力成本算力使用效率每參數每 token 算力需求Sta
22、te of Generative AI 2023第一章:行業變革9啟明創投 未盡研究定價模型:模型層Publication dateSep 26,2010Jul 31,2014Apr 26,2017Jan 21,2020petaFLOP0.11101001,00010,000100,0001 million10 million100 million1 billionAlexNetAlexNetGANsGANsResNet-152(ImageNet)ResNet-152(ImageNet)TransformerTransformerBigGAN-deep 512x512BigGAN-deep 5
23、12x512BERT-LargeBERT-LargeGPT-2GPT-2T5-3BT5-3BAlphaFoldAlphaFoldGPT-3 175B(davinci)GPT-3 175B(davinci)DALL-EDALL-ELaMDALaMDAPaLM(540B)PaLM(540B)VisionSource:Sevilla et al.(2023)Note:Computation is estimated based on published results in the AI literature and comes with some uncertainty.The authors e
24、xpect the estimatesto be correct within a factor of 2.OurWorldInData.org/artificial-intelligence CC BY35 倍/18 個月摩爾定律(2 倍/18 個月)CPUGPU10 億1 億1000 萬100 萬10 萬1 萬10001001010.1訓練算力(petaFLOP)隨著 A100 逐步替換為 H100,推理成本也在下降。去年,OpenAI 的 gpt-3.5-turbo(4K context)的調用價格為 0.02美元/千 token。假定 GPT-3.5 的參數規模為 1750 億,用戶調
25、用時,輸入 500 token 長度的提示詞,獲得 500 token 的內容輸出,且這一推理過程完全基于 A100 實現,算力使用效率為 25%,那么單次推理算力需求為 2*1750*108*(500+500)=3.5*1014FLOP,單次推理成本為 19.22/8/(312*1*1012)/(60*60)*3.5*1014/25%=0.003 美元/千token,毛利率約為 1-0.003/0.02=85%。OpenAI 具有先發優勢,為在競爭中贏得更多市場,它的定價策略更為激進。目前,同樣的 API,服務價格以較去年下降了 90%,低于 0.002 美元/千 token。推出更多樣的相
26、對高價的 API 服務,以及在算力硬件中提升更高性價比的H100 的占比,都有助于穩住毛利率。但這取決于英偉達的產能。目前,亞馬遜尚未成規模地對外提供 H100 算力資源,因此無法參考亞馬遜上 H100 的定價。即使忽略現實資源有限的情況,采用當前 Lambda平臺上 1.99 美元/小時的 1x NVIDIA H100 PCIe(該款芯片單片 FP16 理論精度 1513T FLOP)服務,OpenAI 該服務 的 單 次 推 理 成 本 變 為 1.99/(1513*1*1012)/(60*60)*3.5*1014/25%=0.00051 美元/千 token,毛利率約為 1-(0.000
27、51/0.002)=74.5%,已低于去年。盡管如此,理論上,隨著硬件性能提升,軟件優化程度提高等,大模型的訓練成本會隨著時間的推移而下降。如果 只 用 1 片 FP16 精 度 下 理 論 算 力 312TFLOP 的 A100,來重新訓練一次 GPT-3,則需 3.15*1023/312/(1*1012)/(365*24*60*60)=32 年。亞馬遜剛推出 8 片 A100 算力的p4d.24xlarge 時,預購一年(Savings Plans)每小時 19.22美元,按 50%效率估算,目前,GPT-3 的訓練成本已降至32*(19.22/8)*365*24/50%=135 萬美元。
28、去年,英偉達 H100 發布,性能進一步提升,也將帶來成本 的 進 一 步 下 降。SXM 版 本 H100 的 FP16 精 度(FP16 Tensor Core),算 力 達 到 了 1979TFLOPs,是 SXM 版本 A100 的 624 TFLOPs 的 320%。但 據 Lambda 測 算,H100 的訓練吞吐量(Training Throughput)為 A100 的160%。當然,如果大模型參數持續膨脹,訓練成本將令市場難以接受。在當前 GPU 以類似摩爾定律的進步速度提升的情況下,大模型參數規模的增長可能會遭遇瓶頸。一方面是算力硬件迭代速度跟不上,另一方面是則是因為現實世
29、界生產高質量的訓練數據的速度也不夠快。這也是為什么 OpenAI 的CEO 奧特曼認為,“現在已經接近巨型模型時代的尾聲”,要尋找其他諸如分布式訓練、任務調度優化等方式進一步提高訓練效率。大模型參數規模增長速度超過摩爾定律圖像駕駛游戲語言多模態其他語音視覺Task domainDrawingDrivingGamesLanguageMultimodalOtherSpeechVisionSource:Sevilla et al.(2023)Note:Computation is estimated based on published results in the AI literature an
30、d comes with some uncertainty.The authors expect the estimatesto be correct within a factor of 2.OurWorldInData.org/artificial-intelligence CC BY來源:Sevilla et al.(2023)發布時間State of Generative AI 2023第一章:行業變革10啟明創投 未盡研究定價模型:應用層設單次 1000 token)。當百萬 DAU 時,單日成本為 6.5萬美元,千萬 DAU 則達到 65 萬美元。事實上,這類應用達到千萬 DAU
31、非常不易。娛樂 Chatbot:吃掉了用戶大量空閑時間。特點是高頻(假設日均 100 次),短輸入(假設單次 50 token),短輸出(假設單次 50 token)。當百萬 DAU 時,單日成本為1.75 萬美元,千萬 DAU 則達到 17.5 萬美元。事實上,娛樂 Chatbot 往往需要依賴上下文的記憶,如果計入記憶的 token,則單日成本還需增加數倍。應用企業通過預估每次輸入輸出需要用到的 token 數量,以及自己想達到的 DAU,即可預估出每天在大模型 API 上的開銷。當然,這就是充滿混亂與誘惑的早期市場。想要達到百萬和千萬量級的 DAU 需要企業跑得越快。但由于競爭,應用層企
32、業的利潤空間很快就可能收窄,例如 Copy.ai 的定價策略就與 Jasper 針鋒相對,用更低的價格奪取市場。即便現在是生成式AI的早期市場,在擁有多家創業企業的特定市場中,單純調用 API 的應用企業更可能無法做到差異化,那么行業整體毛利率的下降將很快到來。定價模型:應用層應用層企業的成本結構中,除了軟件本身的成本外,就是調用大模型 API 時產生的費用,這部分的成本與活躍用戶規模、單個用戶日均推理次數,單次推理輸入提示詞與預置文本的長度,單次推理輸出的內容的長度等相關。這些變量又與應用層企業所在的應用場景相關。有些場景用戶量較少,或問答頻次較低,但需要更長的提示詞或預置文本讓大模型更懂自
33、己。有些場景問答則相對簡短,但用戶與大模型間可能會聊得停不下來。假設現有三家應用企業,調用 OpenAI 的 gpt-3.5-turbo(4K context)服務,該模型的計費規則為輸入$0.0015/1K tokens,輸出$0.002/1K tokens,它們對應如下應用場景:查詢工具:企業內部知識查詢,偶爾遇到問題,就查詢一下。特點是低頻(假設日均 3 次),短輸入(假設單次 50 token),中等輸出(假設單次 300 token)。當百萬 DAU 時,單日成本為 0.2 萬美元,千萬 DAU 則達到 2.03萬美元。研究助手:日常工作使用,有預置文本。特點是中頻(假設日均 10
34、次),長輸入(假設 3000 token),長輸出(假不同應用場景下的推理成本變化DAU:萬研究助手娛樂Chatbot查詢工具單日成本:萬美元1001010.10.010.0010200400600800100012006.56517.51.752.030.2State of Generative AI 2023第一章:行業變革11啟明創投 未盡研究企業運營發生改變 守成者:這類玩家受到傳統業務既得利益的束縛,轉型緩慢。企業將受到市場沖擊,如果不采納 AI 2.0,將會因為市場競爭對手提供了差異化的產品,逐步失去市場;如果采納 AI 2.0,但一時又無法提價,就會因額外 AI 成本的上升,導致
35、利潤下滑。谷歌的搜索業務就是如此。它成為市場眼里的守成者。微軟 CEO 納德拉聲稱,搜索的毛利率將永遠下降。創新者:這類玩家積極擁抱了新的技術,為原有產品提供了新的功能,甚至是新產品新品類,獲得了服務溢價與競爭溢價。盡管企業也需要支付額外的 AI 成本,但漲價彌補了這一切,讓它的利潤較之前有所提升。微軟是創新者的代表。最近,微軟宣布 Microsoft 365 Copilot 漲價40%。很多 SaaS 企業最終都會如此。Notion 為它的 AI收費 10 美元每月,相當于為微軟最受歡迎的那檔訂閱服務,提價了 100%。采納者:還有部分企業只是在公司內部業務流程中采納了新技術。這能壓縮研發人
36、員、行政人員、銷售人員等人力成本。多項研究表明,知識工作的崗位,受本輪生成式人工智能的沖擊較大。此外,隨著人員縮編,流程優化,溝通中的效率損耗也隨之減少。目前,已有券商用生成式 AI來幫助閱讀財務報告,律所用來起草合同文本,營銷企業用來撰寫文案,軟件企業用來編寫代碼,客服用來回答問題。不同行業甚至同一行業內不同企業,內部的崗位結構不同,受 AI 2.0 暴露影響的情況也不同,企業的利潤表變化差異也會較大?,F有研究普遍認為,客戶互動、文書撰寫、代碼編寫、資料搜索與收集、數據分析研究等工作內容及工作時間占比較高的金融及咨詢行業、客服行業、營銷行業、軟件行業將是AI 2.0的最積極的采納者。如果其中
37、一半工作可以由 AI 2.0 取代,將節省大量人力成本。創新者與采納者之間的界限并非那么清晰。采納者也可以在重塑自己的業務流程后,對外服務,贏得創新溢價。創新者也可以利用 AI 技術,提升服務溢價的同時,減少自己的研發成本。比如 SaaS 服務商,在交付軟件扣除成本后,可以將剩余的毛利潤用于運營,即研發、行政、銷售營銷等。對初創期的 SaaS 服務商而言,研發與營銷的成本往往很高;對于成熟期SaaS運營商而言,銷售成本占比又往往難以下降。即使是被顛覆者,也還有調整架構的機會。面對沖擊,除了模型優化與算力提升外,谷歌正在圍繞大模型走向生成式搜索,重新設計自己搜索業務與廣告引擎的技術架構與用戶體驗
38、。企業運營發生改變生成式人工智能不僅意味著技術變革,還意味著流程再造。面對 AI 2.0 的沖擊,市場誕生了三類玩家:守成者的利潤表創新者的利潤表采納者的利潤表原售價原售價原售價漲價原成本原成本AI 成本AI 成本目前利潤目前利潤降本增效原利潤原利潤原成本AI 成本目前利潤原利潤120100806040200120100806040200160140120100806040200State of Generative AI 2023第一章:行業變革12啟明創投 未盡研究市場格局市場格局說明:不完全列舉。部分企業尚未進行公開宣傳,或無 Logo 等宣傳資料,暫不予展示。部分企業橫跨多個領域,此處
39、僅列入相對典型的一項。AI 1.0 時期,從 2012 年到 2015 年,AlexNet 等技術突破促使 AI 成為創業和投資熱潮,融資數量不斷上升。但由于產業落地不暢,此后總融資額和新創立的 AI 企業的數量開始下降。市場在 AI 2.0 時期重新活躍。去年底以來,每周都有新的生成式 AI 產品發布。據 CB insights,這個領域全球至少誕生了 13 家獨角獸企業。中國沒有錯過這一輪技術創新。5 月底,科技部旗下研究中心新發布的中國人工智能大模型地圖研究報告統計,近5 年來,中國研發的大模型數量排名全球第二,僅次于美國;2023 年中國發布的大模型數量超過了美國??萍季揞^吸引了更多的
40、目光,但初創企業孕育著新的希望。它們或者迭代上一代 AI 技術,或者創造新的產品與服務。文本與圖像是目前相對成熟的兩大模態,與美國類似,中國同樣有較多的初創企業聚焦于此,但它們正在尋找如何將其融入視頻、3D、編碼等更多模態。部分原 AI 1.0 時代的初創企業開始轉型,計算機視覺、語音識別、自動駕駛乃至生物醫藥等企業,迅速結合業務數據與應用場景,將其融入了大模型,試圖用更泛化的能力解決更普遍的行業痛點。創新正在外溢至周邊領域,元宇宙、數字人等也在通過靠近 AI 2.0 獲得新的活力。法律、金融與營銷領域存在更明確的新機會,無論是搜索、翻譯、對話、摘要還是創作,都已有初創企業的身影;游戲、家裝、
41、服裝等行業的概念圖設計,也正在交給生成式人工智能。有些則更通用一點,為不同企業各自員工學習公司或行業知識,提供了更便捷的交互界面。更多的增量正在被發掘出來,現在仍是 AI 2.0 的早期,基礎架構和核心技術并不特別成熟;巨頭忙于研發大模型,尚未顧及深度切入具體應用場景。這是初創企業的藍海,也有發展道路上的暗礁。市場地圖大模型工具鏈語言類多模態心理游戲視頻音樂通用寫作法律營銷與銷售HR企業搜索語音/STT/TTS流程自動化圖像 數字人3D 生成金融State of Generative AI 2023第一章:行業變革13啟明創投 未盡研究GPT-3 之后的新公司 GPT-3 之后的新公司 截止到
42、 2023 年 Q1,在剔除掉在看到大模型機會后才切換過來的創業企業后,根據啟明創投投資團隊與超過 100 家在 GPT-3發布后成立的大模型和生成式 AI 相關的中國創業企業的交流,這些生成式 AI 新公司中,將近 30%做語言類應用;企業數量最多是多模態應用方向,占比 57%;大模型企業,以及為更好地訓練和應用大模型提供支持的工具鏈企業共占比 14%。在100余家公司的具體方向中,ChatBot占11%,而生產力工具占得最多,高達65%,包括文案寫作、圖像生成、視頻腳本生成、3D 資產生成等。以下是截止 2023 年 Q1 的生成式 AI 市場情況:生成式 AI 創業領域(截止 2023
43、年 Q1)基于啟明創投團隊交流過的 100 余家企業的統計。娛樂 ChatBot ChatBot 引擎 游戲 ChatBot 心理 ChatBot 咨詢助手 求職助手 健康助手 心理咨詢服務 數據合成服務 寫作平臺 營銷文案 合同審核 企業搜索 圖像生成/編輯 視頻生成 3D 資產生成 動作/表情生成 代碼生成 表格生成 語音生成 軟件動作(Web)軟件動作(APP)高性能分布式訓練 神經網絡結構搜索 向量數據庫 語言大模型 決策大模型State of Generative AI 2023第一章:行業變革14啟明創投 未盡研究GPT-3 之后的新公司 生成式 AI 創業領域(截止 2023 年
44、 H1)基于啟明創投團隊交流過的近200 家企業的統計。娛樂 ChatBot ChatBot 引擎 游戲 ChatBot 心理 ChatBot 咨詢助手 求職/招聘助手 求學助手 健康/醫生助手 購物助手 企業問答助手 法律服務 心理咨詢服務 數據合成服務 產業數據服務 寫作平臺 營銷文案 合同審核 企業搜索 通用圖像生成/編輯 To B 圖像生成/編輯(電商、游戲、建筑)視頻生成 3D 資產生成 動作/表情生成 代碼生成 表格生成 語音生成 音樂生成 娛樂內容平臺 軟件動作(Web)軟件動作(APP)高性能分布式訓練 神經網絡結構搜索 向量數據庫 大模型應用開發部署平臺 其他 通用大模型 決
45、策大模型 垂直大模型(醫療、電商、科研、工業、自動駕駛)Autonomous Agents 通用機器人平臺 大模型安全 大模型數據安全然而,市場發展是快速的,2023 年的 Q2 又涌現出大量的生成式 AI 創業企業,在 2023 年 H1 結束后,啟明創投基于累積近200 家生成式 AI 企業的交流,觀察到的生成式 AI 市場情況如下圖:根據與這些公司的交流,啟明創投發現市場上的創業公司呈現出以下趨勢:與 2022 年受到 Stable Diffusion 和 ChatGPT 刺激后快速涌現出的生產力工具方向的創業公司不同,2023 年有更多比例的新公司聚焦在底層技術的創新上,更多大模型公司
46、和 infra 工具鏈公司在以技術大拿為主的創始人主導下成立。反映在數據上,具體表現為聚焦在底層技術的創業公司占比從 14%提升到了 29%,而生產力工具型的應用公司占比則從 65%下降到 46%。此外,在生產力工具的方向上,不同于此前僅微調 Stable Diffusion 等開源模型的創業公司,最新涌現的創業公司往往由更高級別的AI 人才領導。大模型創業公司開始分化,在通用大模型創業公司方興未艾的同時,許多面向特定行業的垂直大模型公司開始出現,主要聚焦在醫療、電商、科研、工業、自動駕駛和機器人等方向。具備行業屬性的智能助手方向的創業企業開始增加,如求職、招聘、求學、法律、健康、購物、企業知
47、識問答等方向的個人助手和員工助手方向的創業公司持續涌現,這代表著在經過一段時間對 ChatGPT、Stable Diffusion 的熟悉后,具備更強行業知識和資源的行業老炮型創始人逐漸進入生成式 AI 領域。State of Generative AI 2023第一章:行業變革15啟明創投 未盡研究大模型公司大模型公司通用大模型作為模型層公司代表的 OpenAI,2020 年發布的 1750 億參數的 GPT-3 曾一度是 AI 歷史上最大的機器學習模型,相比于 15 億參數量的 GPT-2,GPT-3 參數量提高約 117 倍,預訓練的數據量也從 50 GB 提高到 570 GB。2023
48、 年 3 月,OpenAI 發布的 GPT-4 則再次擴展了深度學習的邊界,結合多模態能力達到了里程碑式的效果,并在各種專業和學術基準上表現出可以與人類媲美的水平??梢哉f,GPT-3 打響了大模型競爭的第一槍,而 ChatGPT 和 GPT-4 的出現進一步加速了大模型主導權的競爭,是否擁有一個大語言模型底座對于大模型企業后續進一步優化出更好的模型至關重要。ChatGPT 是 OpenAI GPT-3.5 優化后的模型和產品化體現,其背后的技術從 2018 年的 GPT-1(2018)開始,逐漸經過GPT-2(2019),GPT-3(2020)逐漸達到里程碑式的突破,此后 2 年內 GPT-3
49、 又經過兩次重要迭代,引入基于人類的反饋系統(RLHF)后形成 ChatGPT。從 ChatGPT 的發展可以看出,對于模型層公司來說,技術的演進極為重要,公司需要極強的技術掌舵人和融資能力來保障研發投入的穩定性。此外,通過對海外市場的觀察,我們發現當前大模型競賽中,由高級別 AI 人才主導的創業公司更加領先,例如OpenAI,Anthropic 和 Cohere 等公司。同樣,類似 Adept,Inflection 和 Character.ai 等公司以極快速度實現了極高的估值,也表明頂級的 AI 人才正在通過研發大模型來構建有壁壘的應用,以此參與到生成式 AI 領域的競賽中,而市場也更青睞
50、這些頂級 AI 人才創立的公司。code-cushman-001(CodeX/Copilot)text-davinci-001(InstructGPT Initial)千億基座模型代碼邏輯能力text-davinci-002(InstructGPT)意圖對齊生成正確的內容2020.062021.072022.032022.042022.052022.11有監督微調ChatGPT建模對話歷史的能力text-davinci-003更強的上下文學習能力RLHF(面向對話)RLHFGPT-3 175B(Davinci)code-davinci-002State of Generative AI 202
51、3第一章:行業變革16啟明創投 未盡研究大模型公司同樣,目前中國市場普遍看好從模型出發的公司,當前大模型公司具備以下三個特點:投入大:底層模型的構建需要超重資源投入,包括大量算力、數據和人才;工程強:由于大模型具備更強的泛化能力和提供方的商業追求,大模型發布時就提供各類用法的樣例;營銷強:受到 OpenAI 高調營銷(如高管頻繁接受各種訪談)的帶動,國內大模型公司召開發布會已經成為常態。在通用大模型百舸爭流的今天,國內絕大多數的大模型團隊在 2023 年之后成立,在同時起步并角逐大模型皇冠的路上,團隊至關重要。正如 GPT-4 報告中披露的,研發出 GPT-4 至少需要六個方向的研究團隊一樣(
52、Pretraining,Long context,Vision,Reinforcement Learning&Alignment,Evaluation&Analysis,and Deployment),國內大模型創業團隊需要有極強的算法、工程和數據能力:將市面上存在的算法用藝術的形式組合起來,成為最終模型的某個環節;GPT-4 未公開算法,企業需要創造性地提出自研算法才能研發出達到或超過 GPT-4 效果的通用大模型;基礎模型的研發需要極強的分布式訓練等工程能力的支持,團隊需要確保對計算資源的高效利用,并建設高質量數據集以保證模型的效果。當然,巨頭不會懈怠,如何與科技巨頭競爭和合作,始終是貫穿
53、初創企業成長始終的難題。國內科技巨頭幾乎每周都會宣布大模型的研發進展與行業合作動態,它們橫跨了云基礎設施與大模型,而且在它們那里模型層與應用層的界限相對模糊。百度宣稱要把所有的產品都重做一遍,而坐擁最多用戶的騰訊決定先聚焦產業。但競爭的關鍵,還是提供效果最優的模型,輔之以足夠可靠的產品與服務。垂直大模型垂直大模型企業往往不會作為模型提供商來存在,更多的是“自建大模型的垂直應用”的模式。除了創業公司以外,有興趣研發垂直大模型的組織主要還有互聯網公司、AI 1.0 企業和行業龍頭等。對于自研垂直模型的企業,行業數據尤為重要,擁有高質量的行業數據和私有數據,是針對特定行業優化大模型表現的關鍵。以彭博
54、自研的 BloomBergGPT 為代表,金融行業數據超過了公開數據,占比達到 51%。因此,最終模型效果在很多在金融任務上有出色的表現。目前構建面向垂直行業的模型有以下三種方式:在已經完成訓練的通用大模型基礎上,結合大量自身的行業數據進行微調(fine-tuning),在此之前是否對通用大模型進行蒸餾、后續是否外掛知識庫則視情況而定。通過改變數據的分布,結合更多特定行業的數據進行預訓練,直接打造行業大模型 通過自定義一種專屬語言,并用(文本,專屬語言)這樣的 pair 對大模型進行 fine-tuning,并將生成的專屬語言輸入到自研的 AI 模型中,完成【用戶輸入 大模型 專屬語言輸出 自
55、有 AI 模型 業務結果輸出】的全過程。融資日期輪次融資額投資機構2023 年 3 月B$350MGeneral Catalyst,Spark Capital,etc.2022 年 4 月A$65MGreylock,Addition,etc.CEO,David Luan,OpenAI 工程副總裁 CTO,Niki Parmar,Google Brain 科學家 首席科學家,Ashish Vaswani,Google Brain 科學家融資日期輪次融資額投資機構2023 年 6 月B$1.3BMicrosoft,Nvidia,etc.2022 年 5 月A$225MGeneral Catalys
56、t CEO,Mustafa Suleyman,DeepMind 聯合創始人 聯合創始人,Reid Hoffman,LinkedIn 聯合創始人 首席科學家,Simonyan,DeepMind 首席(Principal)科學家融資日期輪次融資額投資機構2023 年 3 月A$150MAndreessen Horowitz CEO,Noam Shazee,Google 首 席(Principal)軟 件 工 程 師,Transformer 作者之一 總裁,Daniel Adiwardana,Google 資深軟件工程師融資歷史&核心團隊融資歷史&核心團隊融資歷史&核心團隊Adept.aiInfec
57、tion.aiCharacter.aiState of Generative AI 2023第一章:行業變革17啟明創投 未盡研究應用層公司應用層公司模型層公司的分量雖重,應用層公司的數量仍是最多的。這是創新最活躍的地方。絕大多數應用層公司的創業者不需要從頭訓練大模型,只需要直接利用底座模型的能力,疊加對于場景和行業的深刻理解,就可以支持一家應用公司的發展。根據AI能力來源及其占比,這些應用公司大致可以分為三類:調用外部大模型的 API 為主的模式。這類團隊本身通常不會有很強的預訓練模型開發能力,更多是具備應用層的能力。.他們往往是年輕創業者,或是來自垂直產業的老兵,搭配幾位 IT 專家,基于
58、 API 或開源模型去開發應用,至多做一些微調與修改。結合了 AI 1.0 模型能力的模式。他們仍以調用 API 或使用開源模型為主,但又涉及大模型技術以外的 AI 算法。這類團隊內部培養了一些深度學習算法的工程師,才能更好地實現既定效果。自研 AI 2.0 模型能力的模式。這就是“模型+應用”的垂直大模型模式。這類團隊通常需要高度熟練的機器學習科學家、大量相關的數據、訓練基礎設施和計算能力。團隊領袖往往是 AI 行業的頂尖人才,有過成功的大模型預訓練經驗。當然,這些公司也不會介意借鑒一些開源模型加快研發速度。三類模式并沒有孰優孰劣之分。不同應用場景,不同發展階段,需要合理采用不同的模式。隨著
59、調用 API 為主的初創企業逐步發展,團隊變得更為成熟,會很自然地將提升自身 AI能力提上日程。如果沒有自研 AI 2.0 模型的能力,想要成功,就要快速推出產品并占領市場,并持續領先的迭代出更合適客戶的產品。它的產品或服務,成為工作流程中的一環,或建立新的用戶社區,是能否持續快速規?;年P鍵。但長期來看,它的競爭壁壘仍是傳統軟件的規模效應、切換成本,而技術壁壘較低,最底層技術很難實現差異化。調用外部大模型的 API 為主的模式,它們還面臨被原廠大模型迭代到下一個版本后吃掉市場的威脅。而結合了 AI 1.0 模型能力的模式,也將面臨大量同質化產品的競爭,即便公司在早期發現了藍海市場,在實現產品
60、與市場的匹配(PMF)后,也可能引起競爭對手快速跟進,并且容易受到科技大廠的競爭。自研 AI 2.0 模型,想要成功,就要持續拿到大量融資,在實現對早期大眾的占領前,始終保持自研模型效果不低于第三方模型,同時需要兼顧好產品打磨、業務發展、銷售和營銷等。它們面臨較少的同行業競爭對手,但面臨大模型邊界擴展的威脅。它的競爭壁壘在于,如何擴大自己的技術領先優勢與資本投資熱情。創業公司使用 GPT-3/GPT-4 等第三方大模型或開源模型的三種形態:年輕的創業者/熟悉某個垂直產業的老兵+IT 專家Al 產業界大咖,熟悉大規模預訓練模型創始團隊熟悉某個垂直產業的老兵+IT 專家/A1 1.0算法專家應用應
61、用 數據處理能力 Prompt/Fine-tuning 能力 數據處理能力 Prompt/Finetuning 能力 AI 1.0 模型能力 自研 AI 2.0 大模型能力 分布式訓練基礎設施大模型 API or 開源模型大模型 API or 開源模型AI 能力應用 數據處理能力 Prompt/Fine-tuning 能力 AI 1.0 模型能力大模型 API or 開源模型AI 能力AI 能力State of Generative AI 2023第一章:行業變革18啟明創投 未盡研究語言類應用公司語言類應用公司在全球范圍內,基于自然語言處理的應用,在 transformer 應用中的占比 4
62、0%。在國內,根據啟明創投交流過的公司統計,語言類應用占了近三年成立的生成式AI 企業的 27%,此外,多模態類應用中還有占比近 1/3 離不開自然語言處理。語言類公司,按功能來分,可以分為翻譯、對話、摘要、生成、推理等,可以用于構筑智能對話、智能助手、智能服務與生產力工具;按應用場景來分,這些公司出現在社交、咨詢、招聘、健康、心理、金融、法律與營銷等領域。語言類公司面臨強大的競爭對手。微軟的生產力套件擠壓了原生應用的市場空間;排名靠前的全球 SaaS 巨頭紛紛推出自己的語言類 AI 應用,部分還是自研的大模型。不同應用場景決定了語言類公司不同的競爭策略,有些場景需要快速跑出流量占得先機,比如
63、招聘和社交,流量爆發后形成的規模效應將是這些場景下創業公司的核心壁壘;而另外一些場景,則需要深耕行業,例如金融、法律、心理和營銷,具備信心的創始人還需要有極強的行業認知,在攻下一個個行業客戶/用戶后,切換成本將為他們建立顯著的優勢。簡單的文本處理和套殼的 Chatbot,將很快成為紅海。創業公司要從取悅早期用戶的興奮中冷靜下來,構筑更高的壁壘。自然語言正在成為一種新的交互界面,連接用戶與世界。問題不斷出現,知識不斷更新,絕大多數用戶并不僅僅滿足獲取可能與事實不符的娛樂性對話,如何把知識嵌入到大模型的需求非常迫切,當前相關技術和產品尚供給不足,仍處于藍海狀態。文本模態的應用企業,要警惕被自己殺死
64、。它需要對齊來滿足公眾價值和國家的監管要求。越來越多的生成式人工智能,正在制造良莠不齊的文本內容,它們會成為訓練數據,也會成為搜索來源。誰先解決這個問題,誰擁有更廣闊的的發展空間。同樣,如何幫助 Facebook 和 Twitter 這樣的社交網絡或用戶社區防止泛濫的 AI 數字人和 AI 回復,也將帶來不小的創業機會。語言類應用的初創企業寫作金融翻譯招聘政務銷售管理心理營銷智能Chatbot社交法律說明:不完全列舉。部分企業尚未進行公開宣傳,或無 Logo 等宣傳資料,暫不予展示。部分企業橫跨多個領域,此處選擇相對核心的業務重復展示。State of Generative AI 2023第一
65、章:行業變革19啟明創投 未盡研究多模態應用公司多模態應用公司多模態方向上的技術創新與應用場景,也為中國的生成式 AI應用公司提供了巨大機會。在中國龐大的互聯網、消費市場、實體經濟中,蘊藏著豐富的多模態數據。同樣,抖音、快手、微視等短視頻或直播應用也占據了用戶大量的時間。最早的一批多模態應用經過將近一年的發展,已經有公司的總注冊用戶量突破百萬甚至兩百萬,并初步實現了早期的商業化收入。但如何進一步擴大用戶量,或深入到游戲、電商等特定行業實現大規模收入的路徑尚不清晰。另外,更強技術背景的創始人正在進入這個賽道,準備研發更強勁的模型來解決可控性等問題。未來,如何從創意工具走向可控性極強的生產力工具,
66、將是多模態應用公司需要回答的關鍵問題。與 Text-to-Image 企業已經擁有了相對不錯的生成效果,而在爭奪可控性的制高點不同,Text-to-Video 和 Text-to-3D企業則在比拼生成內容的效果。視頻和 3D 生成領域尚未出現如圖像領域的 Stable Diffusion 一樣風靡一時的模型,因此,這些方向上的公司進入商業化階段的條件并不充分,需要通過模型層面的創新(無論是自研還是使用第三方模型),來生成符合用戶預期的內容。數字人企業重新煥發生機,在 AI2.0 到來之前,它們擁有很強的 CG(計算機圖形學)能力,但對話能力卻顯得薄弱,很多情況下是沒有靈魂的皮囊。大模型的出現補
67、足了數字人企業的短板,讓通用的 to C 數字人可以和用戶進行更豐富和深入的交互,基于內容提供更強的情感鏈接;并讓 to B 數字人從原來的“客戶宣傳需求驅動”和“電商平臺合規驅動”,真正走向“效果驅動”。然而,大模型也激化了數字人企業的競爭,原本獨特的 NLP 能力如今不再新鮮,通過接入大模型 API,每個應用公司都輕易具備。當前,多模態的應用正在超越虛擬世界,向具身智能領域進軍,從而直接與現實世界進行互動。例如,機器人需要在虛擬環境中模擬和仿真各種操作、理解用戶的需求、感知周圍物理世界的環境并規劃要實現的動作??傊?,當前多模態方向上的創業公司尚處于發展的早期階段,商業的想象力讓這條賽道充滿
68、前景,但技術的不成熟又讓這個方向充滿了挑戰。這個方向的創業公司同樣面臨著生成式AI 公司無法回避的問題即用戶被生成的內容所吸引,與傳統的 CRM 和 ERP 等軟件不同,生成式 AI 的用戶并沒有表現出足夠的粘性和切換成本。用戶跟著優質的內容走,而誰能夠提供優質的內容,就可以在提高滲透率的同時,把競爭對手的用戶吸引過來。在技術尚未成熟的今天,誰能夠提供更優質的模型,往往意味著能夠提供更優質的內容,吸引更多的用戶??梢哉f,致力于在多模態方向上打造出爆款應用的創業公司,必須具備極強的模型研發能力和創新能力。簡單來說,顛覆式的 AI 應用的核心驅動力來自于底層模型的創新,兩者無法解耦,一定時間內,模
69、型的作用將大于產品設計的作用。多模態應用的初創企業圖像生成海報設計建筑電商興趣社區視頻生成3D 生成說明:不完全列舉。部分企業尚未進行公開宣傳,或無 Logo 等宣傳資料,暫不予展示。部分企業橫跨多個領域,此處選擇相對核心的業務重復展示。State of Generative AI 202320啟明創投 未盡研究第二章 前沿研究第二章 前沿研究State of Generative AI 202321啟明創投 未盡研究第二章 前沿研究致敬 2022致敬 2022跟隨人類指令Training language models to follow instructions with human fe
70、edbackLong Ouyang 及 OpenAI 團隊 研發團隊影響力的真正考驗當然是技術如何在產品中出現,OpenAI 緊隨其 2022 年 3 月論文訓練語言模型以遵循人類反饋的指令后,于 2022 年 11 月底發布了 ChatGPT,震驚了世界。如此快速的產品采用是罕見的。最優計算Training Compute-Optimal Large Language ModelsJordan Hoffmann 等,DeepMind表現最好的模型不是最大的模型,而是一個較小的但在更多的數據上訓練過的模型隱含擴散模型High-Resolution Image Synthesis with La
71、tent Diffusion Models Robin Rombach 等慕尼黑大學、海德堡大學和 Runway 團隊MidJourney,Dall-E 和 Imagen 等模型所創造的精美的圖片都有一個重要的共同點,它們都依賴于擴散模型。研究人員開發了一種新的圖像合成方法,稱為 隱含擴散模型(latent diffusion models),可以在一系列任務中獲得最先進的結果。345負責谷歌研究的副總裁 Jeff Dean 在總結 2022 年時說:“自然對話顯然是人們與計算機交互的一種重要且新興的方式?!睂嶋H上,2022 年不僅發生了這種人機交互革命,也充滿了令人興奮的 AI 論文。我們與
72、全球科技大廠和頂級研究機構的 AI 領袖進行訪談和交流,請他們推薦 2022 年杰出論文,加上我們的最終評議,這 10 篇論文中的每一篇,都被行業專家認為會影響人工智能技術的發展方向。排名不分先后。生成城市 3DBlock-NeRF:Scalable Large Scene Neural View SynthesisMatthew Tancik 等,UC Berkeley,Waymo,Google Research用 280 多萬張圖像訓練了一個 Block-NeRF 的網格,渲染了舊金山的整個街區。此前 Mega-NeRF 也剛開源。Block-NeRF 是一種神經輻射場的變體,可以表征大規
73、模環境。該研究表明,當擴展 NeRF 以渲染跨越多個街區的城市場景時,將場景分解為多個單獨訓練的 NeRF 至關重要。重建大規模環境在自動駕駛、航空測量等領域具有廣泛應用前景。ConvNeXt:卷積神經網絡的“復興”A ConvNet for the 2020sZhuang Liu 等,Facebook AI Research,UC Berkeley 等這是一篇在 2022 年被引述次數最多的論文之一。卷積神經網絡在 Transformer 誕生前稱霸了整個計算機視覺領域,而作者的這篇工作就是讓 ConvNet 重新在視覺領域大放異彩。12生成式人工智能領域的一個突出特征,是研究與創新過程的密
74、切結合,許多在企業內部實現,迅速推出用例和產品。這種研究與創業的一體化,初創企業和風險資本起到了重要的作用,而美國科技巨頭和主要人工智能企業的研究投入與人才,包括一些底層技術的研究,這些年來已經超過了大學等研究機構。State of Generative AI 202322啟明創投 未盡研究第二章 前沿研究致敬 2022“大型語言模型經過海量預訓練之后,已經見過了很多推理方式,我們只需要一步一步引導,就可以讓它按照自己想要的方式去推理。思維鏈方式進一步解放了模型潛力,讓本來模型不會解的一個個復雜問題分解成很多簡單問題,然后通過逐一解決簡單問題,最終使復雜問題迎刃而解?!保ㄇ皴a鵬)語音識別,99
75、 種語言Robust Speech Recognition via Large-Scale Weak SupervisionAlec Radford,Ilya Sutskever 等,OpenAIOpenAI 開源的語音識別系統:Whisper,支持 99 種語言的語音識別(包括漢語),其中英語的識別能力幾乎接近人類。OpenAI 聯合創始人&首席科學家 Ilya Sutskever 說:“終于有一個可靠的語音識別系統能聽懂我的口音了?!彼季S鏈Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsJason W
76、ei 等,谷歌研究,大腦團隊“模型能力可以通過擴大參數規模來提升,但是研究人員卻另辟蹊徑,想了一個更好的方法,即把一個復雜問題分解為多步推理的簡單問題,讓模型能夠明白并學習人類到底是怎么一步一步推導到這個答案的,這個就叫作思維鏈?!?10縮放自回歸Scaling Autoregressive Models for Content-Rich Text-to-Image Generation2022.6.22 Jiahui Yu 及谷歌研究團隊谷歌介紹了一種自回歸文本到圖像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可實現高保真照
77、片級圖像輸出,并支持涉及復雜構圖和豐富知識內容的合成。谷歌還推了另一個文本到圖像生成模型 Imagen。Parti 和 Imagen 分別是自回歸模型和擴散模型,兩者不同但互補,代表了谷歌的不同探索方向。涌現Emergent Abilities of Large Language ModelsJason Wei 等,谷歌,斯坦福,DeepMind 等事實證明,擴展語言模型可以顯著提高各種下游任務的性能和樣本效率。本文討論了一種不可預測的現象,“我們將其稱為大型語言模型的涌現能力?!比绻环N能力不存在于較小的模型中但存在于較大的模型中,則我們認為該能力是涌現的。因此,不能簡單地通過推斷較小模型的
78、性能來預測新興能力。這種出現的存在提出了一個問題:額外的擴展是否有可能進一步擴大語言模型的能力范圍。當這篇文章發表時,OpenAI 已經完成了 GPT-4 的預訓練。通用智能體A Generalist AgentScott Reed 等,DeepMindhttps:/ Gato 的多模態模型,可以完成600 多種任務,被稱為通用智能體,引起了小小的轟動,科技圈內一度以為這就是未來通塞脈用人工智能(AGI)的方向。Gato 同時學習多個不同的任務,這意味著它可以在這些任務之間切換,而不必在學習另一項技能之前忘記一項技能。這是一個小小的進步,但意義重大。678自然語言大模型的進化,2017,Tra
79、nsformer 誕生;2020,GPT-3 發布,進入大模型時代;ChatGPT 開啟了通用人工智能(AGI)時代State of Generative AI 202323啟明創投 未盡研究第二章 前沿研究大模型的“慢思考”大模型的“慢思考”在生成式 AI 的各種基礎模型中,GPT-4 至今仍代表了最高的水準,人工智能研究者們還在忙于地發表測試的論文與報告,試圖理解涌現出來的智能。微軟的測試論文指出:GPT-4 展示出比以前的 AI 模型更具普適性的智能。我們討論了這些模型不斷提升的能力和其所帶來的影響。我們展示了除了掌握語言之外,GPT-4 能夠在數學、編碼、視覺、醫學、法律、心理學等涵蓋
80、了新穎且困難的任務中進行解決,而無需任何特殊提示。此外,在所有這些任務中,GPT-4 的表現與人類水平的表現非常接近,往往遠遠超過了 ChatGPT 等先前的模型。鑒于 GPT-4 的廣度和深度,我們認為它可以合理地被視為人工通用智能(AGI)系統的早期(盡管仍不完整)版本。1該研究提出了通往通用人工智能,未來大模型需要解決的一些問題,也構成了研究的方向:信心校準、長期記憶、持續學習、個性化、規劃和概念跨越、透明度、認知謬誤和非理性、對輸入的敏感性挑戰,等等。而過去半年最重要的研究方向,是破解和理解大模型神秘而又令人興奮的智能“涌現”。大模型既需要超越對下一個詞的預測能力,也需要一個更豐富、更
81、復雜的“慢思考”深層機制,來監督“快思考”預測下一個詞的機制。預訓練幾乎可以產生所有大模型的知識,只需要有限的指令調整數據,就可以指導模型產生高質量的輸出。2而調動大模型的智能,發現其泛化能力的新領域,可以用更有效率的方式,如用直接偏好優化(DPO)的算法,訓練和微調的過程大為簡化。3可以說大模型的成功,在于捕捉詞匯之間的大量統計相關性,但實驗表明,大模型在發現因果關系的表現方面,有時甚至不及隨機猜測。4克服這些局限,還是需要繼續引導大模型正確的思考方法,或者借助外部的資源。一種新的語言模型推理框架,“思想之樹”(ToT),在流行的“思想鏈”方法的基礎上進一步發揮,允許大模型通過考慮多個不同的
82、推理路徑和自我評估選擇來進行深思熟慮的決策,以決定下一步的行動方向,以及在必要時進行預見或回溯以做出全局選擇。5此外,還有大模型可以自己編寫 API 調用,這些生成和執行代碼的能力,可以減輕幻覺問題,增加了輸出的可靠性和適用性。但也可能帶來一些控制大模型方面的風險。6還有研究人員提出了基于 Transformer 訓練出來的推理模塊,可以在大模型上即插即用,改善其推理能力。7大型語言模型理解人類常識推理,還往往取決于其“情商”,即理解人類的信念、目標和心理狀態,這被稱為心智理論(ToM)任務。適當的提示可以提升大模型的心智推理能力(甚至共情能力),對上下文的依賴非常重要。8此外,研究人中同學發
83、現了節省計算資源的訓練方法,有的能提升 2 倍的效率。9最后,是訓練大模型的數據問題:由人類原生的數據,將來可能會越來越稀缺;高質量的自然語言數據,最快有可能到2026 年就被大語言模型耗盡。10一項數據眾包的研究,發現其中 30%-40%來自承包者使用大模型獲取的數據。這就產生了大模型喂自己數據的問題,就像一條蛇,它咬住了自己的尾巴,要把自己整個吞下。11但隨著大模型在人們生活和工作中作用日益重要,合成數據在大模型訓練中的數據來源占比越來越大。如用擴散模型的合成數據,可以提升 ImageNet 中分類的準確度。121.“Sparks of Artificial General Intelli
84、gence:Early experiments with GPT-4,Microsoft Research 2.LIMA:Less Is More for Alignment 3.Direct preference optimization:your language model is secretly a reward model 4.Can Large Language Models Infer Causation from Correlation?5.Tree of Thoughts:Deliberate Problem Solving with Large Language Model
85、s 6.Gorilla:large languge models connected with massive APIs 7.Tart:A plug-and-play Transformer module for task-agnostic reasonin 8.Boosting Theory-of-Mind Performance in Large Language Models via Prompting 9.Sophia:a Scalable Stochastic Second-Order Optimizer for Language Model Pre-training 10.Will
86、 We Run Out of Data?An Analysis of the Limits of Scaling Datasets in Machine Learning 11.Artificial Artificial Artificial Intelligence:Crowd Workers Widely Use Large Language Models for Text Production Tasks 12.Synthetic Data from Diffusion Models Improves ImageNet Classification State of Generative
87、 AI 202324啟明創投 未盡研究第二章 前沿研究開源開源開源模型四年來進步不大?大模型層出不窮,開源的模型更是令人目不暇接,但是這些模型的水平如何?需要嚴謹科學的測試。阿里的達摩院和新加坡國立大學的研究團隊,用 2019 年的 T5 開源大模型與當下比較流行的開源模型進行測試比較,結果顯示:寫作能力有提升,但在解決問題和對齊方面還有差距。四年了,開源的模型似乎并沒有明顯的進步,目前的開源社區已經展開了瘋狂的模型開發,但也要建立起對其表現評價的標準。1模仿不是開源的出路能否通過模仿大模型,讓較弱的開源模型獲得閉源大模型應用(如 ChatGPT)的能力?研究者對一系列模仿 ChatGPT的語
88、言模型進行了微調,使用不同的基礎模型大?。?.5B 至13B)、數據源和模仿數據量(0.3M 至 150M 標記)。然后使用眾包評估者和經典的自然語言處理基準對這些模型進行評估。最初,模仿模型的輸出質量有些驚艷它們在遵循指令方面表現出色,輸出與 ChatGPT 相媲美。然而,在進行更有針對性的自動評估時發現,在沒有大量模仿數據支持的任務中,模仿模型在縮小基礎模型與 ChatGPT 之間的差距方面幾乎沒有任何作用。模仿者只擅長模仿 ChatGPT 的風格,但無法模仿其真實性??傮w而言,模型模仿是一個虛假的承諾:開源模型與閉源模型之間存在著相當大的能力差距,當前的方法只能通過更大量的模仿數據或使用
89、更強大的基礎模型來彌合這一差距。因此,改進開源模型的最有效策略是開發更好的基礎模型,而不是采取模仿閉源大模型的捷徑。2要模仿,就模仿推理小模型利用大模型生成的輸出,來對自己進行解釋調整,這種模仿學習,看起來能讓增強小模型事半功倍。但也要看情況。如果小模型只是獲得大模型淺層輸出的有限模仿信號、規模較小且同質化的訓練數據,以及缺乏嚴格的評估導致高估能力,小模型往往只學習模仿大模型的風格而不是推理過程。為了解決這些挑戰,微軟團隊開發了 Orca,一個擁有130 億參數的模型,學習模仿 GPT-4 的推理過程。這樣,小模型獲得了豐富的信號,包括解釋痕跡、逐步思考過程和其他復雜指令,同時借助 ChatG
90、PT 的指教,還利用了大規模和多樣化的模仿數據進行謹慎的采樣和選擇。結果在一些測評和專業考試中,Orca 勝過了最好的開源模型、達到了 ChatGPT 的水平,接近了 GPT-4 的水平。3華盛頓大學博士生 Tim Dettmers 帶領的團隊,提出了一種高效的微調方法 QLORA,足夠降低內存使用量,能在單個48GB 的 GPU 上微調一個有 650 億參數的模型。4當音樂不再是“天籟”Meta 在 GitHub 上 以 開 源 方 式 發 布 了 AI 音 樂 生 成 模型 MusicGen 的 代 碼,該 AI 模 型 利 用 Transformer 架構,可以根據文本和旋律提示創作音樂
91、。與 Riffusion、Mousai、MusicLM 和 Noise2Music 等其他音樂模型相比,MusicGen 在音樂與文本之間的匹配度以及作曲的可信度等客觀和主觀指標上表現得更加優異。51.INSTRUCTEVAL:Towards Holistic Evaluation of Instruction-Tuned Large Language Models 2.The False Promise of Imitating Proprietary LLMs 3.Orca:Progressive Learning from Complex Explanation Traces of GP
92、T-4 4.Qlora:Efficient Finetuning of Quantized LLMs 5.Simple and Controllable Music Generation Meta 于 2 月份推出了一個開源大模型 LLaMA,這個模型原本只對從事大模型研究社區開放,但很快在社交網站上泄露,迅速流行開來。已經被公認超過了 GPT-3。在此基礎之上,微調出了一個開源模型的“羊駝家族”。與此同時,一份谷歌內部文件泄露,稱面對正在興起的開源大模型,閉源大模型并沒有任何門檻。這樣,開源大模型能否達到閉源大模型的水平?如何實現大模型技術的民主化,以及更垂直,更小型,更個人化。各種測試與研
93、究,形成了一個熱點。State of Generative AI 202325啟明創投 未盡研究第二章 前沿研究智能代理智能代理使用大型語言模型作為核心控制器構建代理是一個很酷的新興概念。除了下述論文之外,另外有幾個概念證明演示,如 AutoGPT,GPT-Engineer 和 BabyAGI,都是鼓舞人心的例子。大模型的潛力超越了生成優秀的復制品,故事,論文和程序;它可以被構架為一個強大的通用問題解決器。游戲中的生命體:活到老,學到老Voyager 是第一個由 LLM 驅動、可以終身學習的具身智能體。,英偉達團隊在之前關于代理在 Minecraft 中玩游戲的研究基礎上進行了改進。他們利用
94、GPT-4 為代理開發了一個課程和構建工具庫的方法。這極大地加快了學習速度,并帶來了更高質量的解決方案。它可以利用 GPT-4 不停地探索世界,開發越來越復雜的技能,并始終能在沒有人工干預的情況下進行新的發現:發現新物品、解鎖 Minecraft 技術樹、穿越多樣化地形,以及將其學習到的技能庫應用于新生成世界中的未知任務方面,Voyager 表現出了優越的性能。3VOYAGER 通過自我驅動的探索不斷發現新的 Minecraft 物品和技能,顯著超過了基線。X 軸表示提示迭代的次數。系統架構概述。代理由多個模塊組成,這些模塊交換消息。其中一些模塊可以訪問 API、互聯網和 Python 解釋器
95、??茖W研究的智能助理來自卡內基梅隆大學的研究人員提出了一個 Intelligent Agent(以下簡稱 Agent)系統,結合了多個大型語言模型,用于自主設計、規劃和執行科學實驗。1模擬人生,模擬社會智能代理除了幫助人類完成較復雜的任務之外,代理之間也可能產生互動。生成代理(generative agents)是一種模擬逼真人類行為的計算軟件代理。為了實現生成代理,需要一種架構,將大型語言模型擴展到使用自然語言存儲代理經歷的完整記錄,隨著時間的推移,將這些記憶綜合成更高層次的反思,并動態地檢索它們以規劃行為。斯坦福和谷歌的研究團隊實例化了生成代理,在一個受模擬人生啟發的交互式沙盒環境里,用戶
96、可以使用自然語言與 25 個代理居民進行交互。在評估中,這些生成代理產生了可信的個體行為和群體行為:例如,僅從用戶指定的一個概念開始,即一個代理想要舉辦情人節派對,代理在接下來的兩天內自主地傳播派對的邀請,結識新朋友,相互約會參加派對,并協調好在正確時間一起出現在派對上。實驗證明了代理架構的觀1.Emergent Autonomous Scientific Research Capabilities of Large Language Models 2.Generative Agents:Interactive Simulacra of Human Behavior 3.Voyager:An
97、Open-Ended Embodied Agent with Large Language Models察、規劃和反思組件對于代理行為的逼真性至關重要。通過將大型語言模型與計算機交互代理融合在一起,這項工作引入了一種架構和交互模式,實現了逼真的人類行為模擬。2State of Generative AI 202326啟明創投 未盡研究第二章 前沿研究多模態多模態1.Visual ChatGPT:Talking,Drawing and Editing with Visual Foundation Models 2.Socratic Models:Composing Zero-Shot Multi
98、modal Reasoning with Language 3.HighMMT:Quantifying Modality&Interaction Heterogeneity for High-Modality Representation Learning多模態指的是機器學習模型可以處理和理解多種類型的數據,如文本、圖像、音頻和視頻等。在現實世界中,信息是通過多種模態傳遞的,因此一個能處理和理解這些不同類型數據的模型,將更能理解和處理實際問題。多模態能力也是提升 AI 與人類交互能力的關鍵。如何有效地整合和處理不同類型的數據,以及如何在不同的模態之間轉換和翻譯等,這些都是當前和未來研究的重要課
99、題。聊天對話框,一個新的圖形界面?由于 ChatGPT 是通過語言進行訓練的,它目前還無法處理或生成來自視覺世界的圖像。與此同時,雖然諸如 Visual Transformer 或 Stable Diffusion 等視覺基礎模型展示了極佳的視覺理解和生成能力,但它們只是在特定任務上的專家,需要一輪固定輸入和輸出。為此,微軟團隊構建了一個名為Visual ChatGPT 的系統,集成了不同的視覺基礎模型,使用戶能夠通過 1)發送和接收不僅是語言,還有圖像 2)提供復雜的視覺問題或需要多個 AI 模型多步協作的視覺編輯指令 3)提供反饋并要求糾正結果。研究團隊設計了一系列提示,將視覺模型信息注入
100、 ChatGPT,考慮到需要多個輸入/輸出和需要視覺反饋的模型。實驗顯示,Visual ChatGPT在視覺基礎模型的幫助下,為研究 ChatGPT 的視覺角色開啟了大門。2Visual ChatGPT:Talking,Drawing and Editing with Visual Foundation ModelsChenfei WuShengming YinWeizhen QiXiaodong WangZecheng TangNan Duan*Microsoft Research Asiachewu,v-sheyin,t-weizhenqi,v-xiaodwang,v-zetang,Abs
101、tractChatGPT is attracting a cross-field interest as it providesa language interface with remarkable conversational com-petency and reasoning capabilities across many domains.However,since ChatGPT is trained with languages,it iscurrently not capable of processing or generating imagesfrom the visual
102、world.At the same time,Visual FoundationModels,such as Visual Transformers or Stable Diffusion,although showing great visual understanding and genera-tion capabilities,they are only experts on specific tasks withone-round fixed inputs and outputs.To this end,We builda system called Visual ChatGPT,in
103、corporating differentVisual Foundation Models,to enable the user to interactwith ChatGPT by 1)sending and receiving not only lan-guages but also images 2)providing complex visual ques-tions or visual editing instructions that require the collabo-ration of multiple AI models with multi-steps.3)provid
104、ingfeedback and asking for corrected results.We design a se-ries of prompts to inject the visual model information intoChatGPT,considering models of multiple inputs/outputsand models that require visual feedback.Experiments showthat Visual ChatGPT opens the door to investigating thevisual roles of C
105、hatGPT with the help of Visual Founda-tion Models.Our system is publicly available at https:/ recent years,the development of Large language mod-els(LLMs)has shown incredible progress,such as T5 32,BLOOM 36,and GPT-3 5.One of the most significantbreakthroughs is ChatGPT,which is built upon Instruct-
106、GPT29,specificallytrainedtointeractwithusersinagen-uinely conversational manner,thus allowing it to maintainthe context of the current conversation,handle follow-upquestions,and correct answer produced by itself.Although powerful,ChatGPT is limited in its abilityto process visual information since i
107、t is trained with a*Corresponding author.BLIPStable DiffusionControlNetPix2PixDetectionVisual Foundation ModelsUser Queryplease generate a red flower conditioned on the predicted depth of this image and then make it like a cartoon,step by stepIterative ReasoningOutputsHere you are.What else can I he
108、lp you?ChatGPTPromptManagerFigure 1.Architecture of Visual ChatGPT.single language modality,while Visual Foundation Mod-els(VFMs)have shown tremendous potential in computervision,with their ability to understand and generate com-plex images.For instance,BLIP Model 22 is an expertin understanding and
109、 providing the description of an image.Stable Diffusion 35 is an expert in synthesizing an imagebased on text prompts.However,suffering from the taskspecification nature,the demanding and fixed input-outputformats make the VFMs less flexible than conversationallanguage models in human-machine intera
110、ction.Could we build a ChatGPT-like system that also supportsimage understanding and generation?One intuitive ideais to train a multi-modal conversational model.However,building such a system would consume a large amount ofdata and computational resources.Besides,another chal-lenge comes that what i
111、f we want to incorporate modalitiesbeyondlanguagesand images,like videos or voices?Wouldit be necessary to train a totally new multi-modality modelevery time when it comes to new modalities or functions?We answer the above questions by proposing a systemnamed Visual ChatGPT.Instead of training a new
112、 multi-modal ChatGPT from scratch,we build Visual ChatGPTdirectly based on ChatGPT and incorporate a variety ofVFMs.To bridge the gap between ChatGPT and theseVFMs,we propose a Prompt Manager which supports thefollowing functions:1)explicitly tells ChatGPT the capa-1arXiv:2303.04671v1 cs.CV 8 Mar 20
113、23Visual ChatGPT 的架構Figure 1:Large pretrained“foundation”models trainedacross different domains learn complementary formsof commonsense,and language is an intermediate rep-resentation by which these models can communicatewith each other to generate joint predictions for newmultimodal tasks,without r
114、equiring finetuning.Newapplications(e.g.,augmented reality(AR),human feed-back,robotics)can be viewed as adding participants tothe multi-model discussion.Across a number of domains spanning vision,language,and audio modalities and via a smallamount of creative prompt-enabled multimodalcomposition SM
115、s are quantitatively competi-tive with zero-shot state-of-the-art on standardbenchmarks including(i)image captioning onMS COCO 15,16,(ii)contextual image cap-tioning and description(improving11.3to38.9captioning CIDEr on Concadia 17),and(iii)video understanding with video-to-text retrieval(from40.7t
116、o44.7zero-shot R1 on MSR-VTT18).SMs also enable new capabilities acrossapplications such as(i)open-ended reasoningfor egocentric perception(Fig.4),(ii)multi-modal assistive dialogue to guide a user througha cooking recipe,and(iii)robot perception-driven planning for sequential pick and place.SMs giv
117、e rise to new opportunities to addressclassically challenging problems in one domain,by reformulating it as a problem in another.Forexample,answering free-form questions aboutfirst-person videos(e.g.,“why did I go to thefront porch today?”)was previously thought tobe out-of-reach for egocentric perc
118、eption without domain-specific data collection 19,20.We showthat this is possible with SMs by assembling video into a language-based world-state history(in theform of a short story,or event log),then performing various types of open-ended text-prompted tasks(e.g.,answering questions)about that world
119、-state history i.e.,formulating video understanding as areading comprehension problem,for which modern LMs are proficient.The goal of this paper is(1)to discuss new perspectives on building AI systems that embrace theheterogeneity of pretrained models through structured Socratic dialogue,and(2)to gi
120、ve exampledemonstrations of what is already possible today with SMs on challenging multimodal tasks.Ourprimary contribution is(i)the Socratic Models framework,which proposes to compose multimodalpretrained models through language,without requiring training.The SMs framework contains key,enabling com
121、ponents such as the demonstrated(ii)multimodal prompting methods,including(iii)language-based world-state history for video understanding.Additional contributions include(iv)demonstrating strong quantitative performance of example SM systems,setting new zero-shot state-of-the-art on multiple tasks,i
122、ncluding in image captioning and video understanding,and(v)providingadditional application examples on open-ended egocentric perception,multimodal assistants,androbot perception and planning.Our demonstrated SM systems are not without limitations wediscuss the unreliability inherited from the models
123、 on which they are constructed,together with otherpotential broader impacts(Sec.6).Code is available at socraticmodels.github.io.2Problem Setting,Background,and Related WorkProblem setting.We are interested in creating a variety of multimodal 21 applications enabledby large pretrained models,which c
124、an be viewed as a form of transfer 22,23:“knowledge”learned from a set of surrogate tasks(e.g.,text completion,image-text similarity)is applied to newdownstream target tasks(e.g.,image captioning,robot planning).Consider a set of target tasks whereeach taskiseeks a desired mapfi:Xi Yi.We are particu
125、larly interested in cases where:(i)eachinputXiand/or outputYimay contain multiple modalities e.g.,from the power set oflanguage,vision,audio,robot actions;(ii)there may be many such tasks;(iii)each target task may have littleor no training data available;and(iv)models pretrained on the surrogate tas
126、ks are available.Pretraining weightsis a dominant paradigm for transfer learning with deep models,in whichpretrained model weights(from surrogate tasks)are used to initialize some subset of parametersin the model for the target task,which are then either(a)left frozen,or(b)finetuned.Pretrainingdeep
127、models has been studied extensively in the unsupervised setting 24,25,26,27,28,and inthe supervised setting was perhaps most popularized by ImageNet 29 pretraining 30,31,32,33,2預訓練的大型基礎模型,在不同領域訓練,學習了互補的常識,語言扮演了中介表示,讓這些模型能夠彼此交流,為了完成多模態任務而生成聯合預測,而不需要微調??梢蕴砑有碌膽?,如增強現實(AR)、人類反饋、機器人等,參與到多模態討論中。大一統:從多模態到高
128、模態由 卡 內 基 梅 隆、密 西 根 和 DeepMind 組 成 的 團 隊,研究了高模態場景的高效表示學習,結果是一個單一模型HighMMT,擴展到 10 種模態(文本、圖像、音頻、視頻、傳感器、本體感知、語音、時間序列、集合和表格)和來自5 個不同研究領域的 15 項任務。HighMMT 表現出至關重要的規模行為:每增加一種模態,性能就會繼續提高,并且在微調期間,它將轉移到全新的模態和任務。3尋找多模態之間的共同語言不同模態的模型在不同的領域存儲不同形式的常識知識,谷歌團隊展示出這種多樣性是互補的,可以通過蘇格拉底模型(SMs)來利用:一個模塊化框架,可以通過多模態提示(即零樣本)來組
129、合多個預訓練模型,以便彼此交換信息并捕獲新的多模態能力,無需進行微調。在最小的工程改動下,SMs 不僅能與最先進的零樣本圖像標注和視頻到文本檢索競爭,而且還能啟用新的應用,例如(i)回答關于以自我為中心的視頻的自由形式的問題,(ii)通過接口與外部 API 和數據庫(例如,網絡搜索)進行多模態輔助對話與人交流(例如,烹飪食譜),以及(iii)機器人的感知和計劃。2State of Generative AI 202327啟明創投 未盡研究第二章 前沿研究具身智能具身智能具身智能指的是 AI 系統能夠通過與環境的物理交互來理解和學習的能力。這對于生成式 AI 來說非常重要,因為它擴大了 AI 系
130、統可以處理和生成的數據類型和范圍。與處理抽象數據相比,具身智能可以幫助生成式 AI 更好地理解和處理現實世界的復雜性和多樣性。然而,具身智能也帶來了一些挑戰,包括如何在物理環境中進行高效的學習,如何處理和解決實際環境中的不確定性,以及如何保證在與環境交互過程中的安全性等。這些都是當前和未來研究的重要課題。一個具身的多模態大語言模型谷歌團隊提出了一個具身的語言模型,以直接將真實世界的連續感知模態納入語言模型,從而建立詞語和感知之間的聯系。這個具身語言模型的輸入是多模態句子,其中交錯了視覺、連續狀態估計和文本輸入編碼。研究團隊將這些編碼進行端到端的訓練,結合預訓練的大型語言模型,用于多個實體任務,
131、包括順序機器人操控規劃、視覺問題回答和字幕添加。評估表明,這個被稱為 PaLM-E 的單一的大型實體多模態模型,可以處理各種具身推理任務,來自各種觀察模態和在多個具身上,并且進一步表現出積極的轉移:該模型從跨OBJECTFOLDER BENCHMARK 測試套件包含 10 個用于多感官對象中心學習的基準任務,圍繞對象識別、重建和操縱展開。作為對 OBJECTFOLDER 中1000 個多感官神經對象的補充,團隊還引入了 OBJECTFOLDER REAL,它包含從 100 個真實世界物體中收集的真實多感官數據,包括它們的 3D 網格、視頻錄制、沖擊聲音和觸覺讀數?;ヂ摼W規模的語言、視覺和視覺-
132、語言領域的多樣化聯合訓練中獲益。除了在機器人任務上進行訓練外,還是視覺-語言通用型模型。1視覺、聽覺、觸覺,真實世界的多維感知 李飛飛等研究人員提出了 OBJECTFOLDER BENCHMARK,這是一個圍繞物體識別、重構和操作的 10 個基準任務的套件,旨在推動多感官物體為中心學習的研究。團隊還介紹了OBJECTFOLDER REAL,這是第一個包含 100 個真實家庭物體的視覺、聲音和觸覺實際測量數據的數據集。團隊希望其新數據集和基準套件能夠作為基石,促進多感官物體建模和理解方面的進一步研究和創新。2 人類已經訓練出機器人打敗了李世石,可以訓練出一個機器人勝過梅西嗎?Google Dee
133、pmind 和牛津的團隊,使用深度強化學習訓練了一個具有 20 個驅動關節的人形機器人,使其能夠玩簡化的一對一(1v1)足球比賽。首先獨立訓練了各個技能,然后在自我對抗的環境中將這些技能端到端地組合起來,展示了運動技能,如快速摔倒恢復、行走、轉身、踢球等,并以平穩、穩定和高效的方式在動作之間進行過渡,遠遠超出了對機器人的直觀預期。機器人還發展出了對游戲的基本戰略理解,學會了預測球的移動并封堵對手的射門等。這些行為的全都是從一組簡單的獎勵中出現的。訓練在模擬環境中進行,并在實際機器人上進行了零樣本遷移。3智能駕駛即智能規劃現代自動駕駛系統的特點是順序性的模塊化任務,即感知,預測和規劃。上海人工智
134、能實驗室等組成的研究團隊,追求最終目標,即自駕車的規劃。他們重新審視了感知和預測中的關鍵組件,并優先考慮了這些任務,以使所有這些任務都能為規劃做出貢獻。他們引入了統一的自動駕駛(UniAD),這是一個全面的框架,它在一個網絡中集成了全棧駕駛任務。它精心設計以利用每個模塊的優點,并從全局視角提供互補特性抽象以進行代理人交互。任務通過統一的查詢接口進行溝通,以便互相促進規劃。他們還實例化了 UniAD。(獲CVPR 2023 最佳論文)41.PaLM-E:An Embodied Multimodal Language Model 2.The OBJECTFOLDER BENCHMARK:Multi
135、sensory Learning with Neural and Real Objects3.Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning 4.Planning-oriented Autonomous DrivingState of Generative AI 202328啟明創投 未盡研究第二章 前沿研究安全與倫理ChatGPT 推出,展示了生成的文本與人類生成的內容無法區分的能力,但這一“后圖靈測試”時代的來臨,帶來了新的挑戰。通用人工智能成功記憶人類知識,并不能保證模型能
136、按照人類的期望來執行。其實早在 ChatGPT 推出之前,已經有研究揭示了一些大模型內部的行為異常,包括生成有害內容,強化偏見和傳播虛假信息。這個提高期望的社會行為和抑制不期望的社會行為的過程,通常被稱為“社會對齊”(social alignment)。大模型的模擬社會互動與人類不同,人類通過社會互動達成關于價值判斷的共識,而當前的語言模型則是在孤立中訓練以僵化地復制其訓練語料庫,導致在不熟悉的場景中的泛化表現不佳,并容易受到對抗性攻擊。這項工作提出了一種新的訓練范式,允許大模型從模擬的社會互動中學習。與現有的方法相比,這一方法更具可擴展性和效率,在對齊基準測試和人類評估中表現出卓越的性能。這
137、種在大模型訓練中的范式轉變,有助于開發能夠穩健準確地反映社會規范和價值觀的 AI 系統。2 安全與可信人類評估結果。參與者(n=206)被要求在 7 點 Likert 量表上對回應在有幫助、誠實、無害、無偏見和參與度方面進行評分。Figure 5:The figure illustrates(a)the stability of Stable Alignment(SA)training relative to SFTand RRHF;(b)the efficiency of alignment learning in comparison with TRLX,evaluated by thes
138、ame reward model.We also delve into hyperparameterselection with respect to(c)the intensity ofpenalty;(d)the number of low-rating responses in each mini-batch.The alignment ratings adhereto the Vicuna evaluation pipeline.Perplexity is assessed using a 13B LLaMA.This disparity can be ascribed to the
139、challenge of accurately ranking responses with equivalent rat-ings,which introduces an unwarranted bias in the computation of ranking loss.In Figure 5(b),we contrast Stable Alignments efficiency in alignment learning with the rewardmodeling method TRLX.To gauge alignment,we periodically calculate th
140、e reward on the valida-tion set using the same reward model as TRLX.We also present results for Stable Alignmenttrainedsolely on vanilla“comparison data”,consisting of aligned and misaligned responses devoid of pro-gressive modifications.Intriguingly,our analysis shows that Stable Alignment attains
141、a superiorreward gain within fewer training steps,even in the absence of direct supervision from a rewardmodel.Furthermore,the incorporation of interaction data expedites the alignment learning process,likely due to the“step-by-step”enhancements observable in each mini-batch of interaction data.Figu
142、res 5(c)and(d)explore optimal hyperparameter settings for Stable Alignment.Based on ourfindings,we advise utilizing a discount factor()of 0.2 for penalties arising from low-rating re-sponses,and selecting N=3 as the number of negative samples in each mini-batch.We discoveredthat excessively large va
143、lues of and N not only resulted in lower alignment ratings,but also in-creased the perplexity of the resulting model.4.3Sample Generation and Human EvaluationTable 3 exemplifies the generation results of Stable Alignment and several other methods.Instruction-tuned Alpaca and Supervised Fine-tuned(SF
144、T)Alpaca cannot answer the question ina socially aligned way.RRHF shows better awareness of potential risk,but its alignment is stillnot ideal as it suggests wearing gloves to avoid leaving fingerprints.ChatGPT and Stable Align-ment demonstrate good social alignment as they both refuse to provide fu
145、rther information,andStable Alignment seems to give a more detailed explanation.In Appendix A.3 we demonstrate therobustness of Stable Alignment under“jailbreaking prompting”through generation samples.Figure 6:Human evaluation results.Participants(n=206)were asked to rate the response in termsof bei
146、ng helpful,honest,harmless,unbiased,and engaged on 7 points Likert scale.In order to ascertain the effectiveness of our proposed model,we conducted an evaluative studyinvolving human participants(n=206).These individuals were tasked with rating the responses ofthe AI models based on their helpfulnes
147、s,honesty,harmlessness,impartiality,and engagement.Themodels evaluated included three that had undergone alignment processes(RRHF,ChatGPT,and9學說人話,也要學習用人話思考 我們不僅訓練大模型說人話,更重要的是訓練大模型像人一樣,用語言思考。這個研究團隊的成員之一,來自辛頓的Vector 研究所,并且是加拿大 CIFAR AI 的主席。研究團隊認為,強化學習(RL)代理遠未達到人類在這些能力上的水平。假設這種認知缺陷的一個原因是他們缺乏用語言思考的好處,可
148、以通過訓練它們像人類一樣思考來提升 AI 代理的能力。研究團隊引入了一種新的模仿學習框架,稱為“思維克隆”,其理念不僅是克隆人類示范者的行為,而且還要克隆人類在執行這些行為時的思維。雖然研究者認為在互聯網規模的數據集上,人們在行動時大聲思考(例如,帶有文字記錄的在線視頻),思維克隆將真正出彩,但在這里,他們的思維和行動數據都是在人工生成的領域進行實驗。結果表明,思維克隆的學習速度遠超行為克隆,其性能優勢在分布測試任務的情況下越發顯著,凸顯了其更好地處理新情況的能力。思維克隆還為 AI 的安全性和可解釋性提供了重要的好處,并使得調試和改進 AI 變得更加容易。因為我們可以觀察到代理的思維,我們就
149、能(1)更容易地診斷問題所在,使得修復問題變得更加容易,(2)通過糾正其思維來引導代理,或者(3)防止其執行不安全的計劃??偟膩碚f,通過訓練代理如何思考以及行為,思維克隆創造出更安全、更強大的代理。2 保護版權,數據來源透明,水印基本可靠隨著大語言模型變得普遍,機器生成的文本有可能充斥互聯網,帶來垃圾郵件、社交媒體機器人和無價值的內容。水印技術使大模型生成的文本可以被檢測和記錄,可以減輕這些危害。然而,一個關鍵的問題仍然存在:在實際情況下,水印技術的可靠性如何?水印文本可能被修改以適應用戶的需求,或者被完全重寫以避免檢測。研究了發現,即使在經過人工和機器轉述后,水印仍然可以被檢測出來。雖然這些
150、攻擊稀釋了水印的強度,但轉述在統計上很可能會泄露出原文的 n-grams(詞匯序列模式)或者更長的片段,當觀察到足夠的詞元時,會產生高置信度的檢測。例如,即使對大量的人類轉述,平均觀察 800 個詞元后,可以檢測到水印,誤報率設置為 1e 5。研究還考慮了一系列新的檢測方案,這些方案對嵌入在大型文檔內的短跨度水印文本敏感。3思維克?。═C)的總體框架。TC 代理有兩個部分:上層部分和下層部分。在每個時間步,TC 代理接收觀察結果、任務以及思維歷史作為輸入。上層部分產生思維,下層部分根據這些思維產生行動。生成的思維和行動與示范數據集中的實際情況進行比較,以計算損失。1.Visual ChatGP
151、T:Talking,Drawing and Editing with Visual Foundation Models 2.Socratic Models:Composing Zero-Shot Multimodal Reasoning with Language 3.HighMMT:Quantifying Modality&Interaction Heterogeneity for High-Modality Representation LearningState of Generative AI 202329啟明創投 未盡研究監管、安全與人才第三章 監管、安全與人才State of Ge
152、nerative AI 202330啟明創投 未盡研究第三章 監管、安全與人才中美歐監管政策中美歐監管政策進入 2023 年,中國、美國、歐盟都加快了人工智能的監管和立法進程。主要是因為 ChatGPT 的推出和 GPT-4 為代表的大模型開啟了通用人工智能的大門,大模型更加強大,創新加速,新技術向各行各業滲透,人工智能給人類帶來福祉和風險會同步放大。所有的監管的核心,都是在充分利用人工智能技術造福人類能力、提升競爭優勢的同時,對其風險加以管理和控制。中國非常重視人工智能的監管,已經針對人工智能應用的不同場景和突出問題,推出了數個管理條例,如算法推薦的透明、內容的深度合成、生成式人工智能管屋里
153、等。關于人工智能的立法,已經提上 2024 年的議程。中國在上半年開始施行互聯網信息服務深度合成管理規定,網信辦發布了境內深度合成服務算法備案清單,還公布了生成式人工智能服務管理辦法(征求意見稿),全國信息安全標準化技術委員會公布國家標準信息安全技術人工智能計算平臺安全框架征求意見稿??萍疾恳补剂丝萍紓惱韺彶檗k法(試行),目前已經完成征求意見。如果參照此前有關個人信息和數據安全的相關立法進程,對人工智能的監管和立法,正在從針對性地回應特定人工智能領域的治理難題階段,進入到推出全國綜合性的立法階段。根據國務院 2023 年度立法工作計劃,人工智能法草案等預備提請全國人大常委會審議。在 2017
154、 年 7 月國務院發布的新一代人工智能發展規劃中,預計 2025 年初步建立人工智能法律法規、倫理規范和政策體系,形成人工智能安全評估和管控能力?,F在看來,這一規劃中的監管立法進程可能會提前完成。歐盟繼率先實施通用數據保護條例(GDPR)之后,又率先啟動綜合性的人工智能的立法,人工智能法案(AI ACT)目前已經在歐洲議會獲得通過,再經過歐盟理事會和歐盟委員會,得到各成員國的批準,可能在 2023 年底或2024 年初正式生效。這將對全球的人工智能的監管產生重大影響。歐盟遵循不同風險等級分類監管的思路,人工智能法案建立起了三級的風險體系。而這種風險體系,也是圍繞著對個人權利和人類福祉可能造成的
155、侵害程度來制定的。不過,由于美國與中國在人工智能領域發展領先于歐盟,歐洲業界擔心,以目前試圖無所不包的立法草案,在人工智能這個人類尚未真正理解其含義的領域,是否會影響產生真正的創新。中美歐立法進程對比2019.2總統行政令 維護美國在人工智能領域的領導地位2023.3.30NIST成立可信與負責AI資源中心,推進風險管理框架的推行2023.1.26NIST 制定 人工智能風險管理框架2023.6.22NIST宣布將成立一個新的AI公共工作組應對生成式AI挑戰2017.6.1中華人民共和國網絡安全法 施行2022.3.1互聯網信息服務算法推薦管理規定施行2021.4.21人工智能法立法啟動202
156、3.4.27人工智能法案 臨時協議,要求生成式公司披露受版權保護的材料2023.6.14人工智能法案 在歐洲議會通過2021.1.1授權NIST開發風險管理框架(RMF)2020 加州消費者隱私法案(CCPA)生效2023.1.10互聯網信息服務深度合成管理規定施行2023.4.11網信辦公布 生成式人工智能服務管理辦法(征求意見稿)2023.4.30信息安全技術人工智能計算平臺安全框架 征求意見稿2023.6.20網信辦發布 境內深度合成服務算法備案清單2021.9.1中華人民共和國數據安全法 施行2018.5.25通用數據保護條例 施行2022.1AI 權利法案藍圖 2022.11.16數
157、字服務法(DSA)生效2023年底預計 人工智能法通過生效2021.1.1中華人民共和國個人信息保護法施行中國美國歐洲State of Generative AI 202331啟明創投 未盡研究第三章 監管、安全與人才地方的 AI 雄心地方的 AI 雄心第一梯隊城市在大模型領域的優勢與布局算力數據產業生態跨區域協同北京 海淀區、朝陽區建設北京人工智能公共算力中心、北京數字經濟算力中心;提高環京地區算力一體化調度能力 歸集高質量基礎訓練數據集;謀劃建設數據訓練基地;搭建數據集精細化標注眾包服務平臺;推動公共數據和社會數據定向有條件開放 用好北京國際大數據交易所社會數據專區 政務服務、醫療領域、科
158、學研究、金融領域、自動駕駛、城市治理;聚焦本市虛擬數字人、數字醫療、電商零售等創新活躍的數據優勢領域;發揮中關村先行先試“試驗田”作用通用人工智能產業創新伙伴計劃加強與天津市、河北省、山西省、內蒙古自治區等區域的算力合作上海 臨港新片區算力產業生態;此外,三角樞紐節點(青浦區為起步區)、G60 科創走廊、金山等樞紐型數據中心集群建設 推動人工智能領域高質量數據集建設;在經濟發展、民生服務、城市治理等領域建立公共數據動態開放清單;鼓勵企業通過上海數據交易所開展數據產品交易 加大在戰略性新興產業項目中對人工智能產業技術創新的布局;推動智能機器人、智能網聯、無人機、人工智能醫療器械關鍵技術研發;制定
159、并定期更新人工智能示范應用清單;浦東新區應當發揮人工智能創新應用先導區的作用臨港新片區智算產業聯盟長三角人工智能產業協同深圳 建設城市級智能算力平臺,鵬城云腦項目 2023 年年底前啟動建設;打造大灣區智能算力樞紐,謀劃共建粵港澳大灣區智能算力統籌調度平臺。2023 年年底前出臺公共數據開放管理辦法、公共數據資源目錄,制定公共數據開放計劃;進一步做大深圳數據交易所交易規模聚焦通用大模型、智能算力芯片、智能傳感器、智能機器人、智能網聯汽車等領域組建深圳市AI 教育聯盟和 AI 講師團鼓勵企業依托河套深港科技創新合作區、前海深港現代服務業合作區或海外研發中心,研發基于國際主流大模型的創新產品,積極
160、拓展國際市場。說明:根據公開資料整理,不完全列舉。人工智能產業政策正在各地密集出臺。北京、上海與深圳處于第一梯隊,杭州、南京、蘇州、成都等多個城市處于第二梯隊。北京明確在文件標題中提到了“通用人工智能”。到2025年,北京計劃基本建成可有力支撐數字經濟高質量發展的通用人工智能產業發展格局,以及具有全球影響力的人工智能創新策源地。屆時,算力芯片等基本實現自主可控,通用人工智能雛形顯現。深圳最為國際化,充分利用區內跨境的優勢,多份文件提到了要依托前海深港現代服務業合作區、河套深港科技創新合作區、光明科學城等區域,建立與國際接軌的科研管理制度,探索實施更加開放、便捷的國際組織注冊制度,吸引港澳臺以及
161、國際人工智能高端創新要素聚集。上海重視對戰略產業的 AI 賦能。該市計劃加大在戰略性新興產業項目中對人工智能產業技術創新的布局,促進智能機器人、智能網聯汽車、無人機、無人船、醫療器械、藥物研發,以及金融與物流等產業應用。第一梯隊城市均圍繞算力、數據、產業上下游生態加以布局,成為跨區域協作的中心。第二梯隊城市的能級就要稍弱一些。隨著全國范圍內的算力統籌與數據開放,它們同樣擁有機會。創新人才與應用場景會成為制約這些城市做大人工智能產業規模的關鍵因素。成都是首個在這波 AI 大模型浪潮中公布政策的西部地區城市,計劃到 2025 年,全市人工智能產業產值突破 1500 億元;南京則提出到 2025 年
162、,全市人工智能核心產業收入超過 500 億元。State of Generative AI 202332啟明創投 未盡研究第三章 監管、安全與人才安全與倫理安全與倫理有關人工智能安全與倫理的爭論,一直伴隨著人工智能的發展,即使在人工智能停滯不前的“黑暗時代”,關于人工智能將統治人類的科幻小說照樣暢銷。而當人工智能真的“通用”起來,其安全與倫理問題,需要從科幻式的高談闊論,落地為具體可行的政府監管與企業責任??萍疾康目萍紓惱韺彶檗k法(試行),已經于 5 月結束征求公眾意見環節,并開始施行。其中提出了人工智能企業,應該接受科技倫理審查;審查主體,應該設立科技倫理(審查)委員會。目前中國公開宣布設立
163、人工智能倫理委員會的科技公司,只有阿里巴巴一家。該辦法也是遵循風險管理的思路,低風險實行簡化程序,而高風險的新興科技活動,實行清單管理和復核制度。其中提到了四類人工智能的高風險科技活動:侵入式腦機接口用于神經、精神類疾病治療的臨床研究。對人類主觀行為、心理情緒和生命健康等具有較強影響的人機融合系統的研發。具有輿論社會動員能力和社會意識引導能力的算法模型、應用程序及系統的研發。面向存在安全、人身健康風險等場景的具有高度自主能力的自動化決策系統的研發。美國較大的人工智能企業,許多都設立部門負責人工智能的安全/倫理/負責任/可信任,尤其重視面向消費者的人工智能產品與服務。但是,去年以來,微軟、Met
164、a、谷歌、亞馬遜和 Twitter 等公司已經裁減了相關團隊的成員。如 Twitter 在埃隆馬斯克的領導下削減了一半以上的員工人數,其中包括其道德人工智能倫理團隊。亞馬遜旗下的流媒體平臺 Twitch 最近裁減了人工智能倫理團隊,讓人工智能產品團隊直接對與偏見相關的問題負責。2022 年 9 月,Meta 解散了由約 20 名工程師和倫理學家組成的負責任創新團隊,該團隊負責評估 Instagram 和 Facebook 上的公民權利和道德規范。微軟 3 月解散了整個社會與倫理團隊,該團隊負責人工智能產品的用戶體驗和整體設計,尤其是將 OpenAI 的大模型技術集成到微軟產品中的風險控制。但微
165、軟仍然保留著負責任人工智能團隊,制定規則和原則來管理公司的人工智能計劃。但這并不意味著美國人工智能企業在削弱對安全與倫理的重視。微軟在這方面的投入實際上增加了。最近的調整,反映出在生成式人工智能發生變革、企業研究與創新競爭加劇的新態勢下,人工智能企業正在尋求用更好的研究、技術和更創新的解決方案,來安全和負責地部署新技術。在人工智能的安全與倫理問題上,美國的科技企業和社會組織發揮著主導作用。一些人工智能企業在調整內部的安全倫理團隊,將其與產品更密切地結合在一起的同時,那些解決大模型的安全與倫理問題的初創企業開始出現了。谷歌擁有一個最完備的人工智能行為原則及治理結構。盡管谷歌的倫理團隊內部發生了價
166、值觀的沖突,一些人員離職,但谷歌將安全與倫理的原則,內嵌到產品的全生命周期,這樣的做法仍然是領先的。為了不讓大模型對用戶和公眾完全變成一個“黑箱”,不管是閉源的 OpenAI,還是開源的大模型平臺,都把產品的風險披露當成產品發布的標配,就像發布一款新藥一樣,要把其中的副作用和風險也要在說明書中交待清楚。在 Google 的產品團隊中嵌入了支持負責任的 AI 實踐的專用功能。Google 通過一個三層的內部 AI 原則生態系統,進一步在公司范圍內落實這些實踐。審核流程 健康倫理委員會負責任創新審核委員會領域 AI 原則審核委員會隱私顧問理事會信任與安全用戶體驗理事會產品包容隱私工作組產品團隊專責
167、職能升級(如果需要)高級技術審核理事會隱私及數據保護辦公室/指導委員會State of Generative AI 202333啟明創投 未盡研究第三章 監管、安全與人才中美塔尖人才中美塔尖人才人工智能的時代才剛剛開始,基礎研究的創新主要來自高校。但全球范圍內,入選 AI 2000 的來自企業的頂級學者的數量整體呈上升趨勢。在美國,科技企業正在成為推動人工智能研究創新的主要力量。擁有 AI 2000 頂級學者數量排名前 10 的美國機構,5家企業,5 所高校。谷歌、微軟、Meta 位居前三,合計招攬了美國頂級學者的 30%。中國則由高校承擔基礎研究的重任。擁有 AI 2000 頂級學者數量排名
168、前 10 的中國大陸機構,9 所高?;蛳嚓P學術機構。阿里巴巴是國內招攬了最多頂級學者的企業。隨著人工智能技術逐步在應用場景落地,未來中國企業也將在全球創新中扮演不可忽視的角色。清華大學 AMiner 團隊在全球范圍內遴選過去十年人工智能學科的頂級學者2000 人次,其中,20 個子領域各 100 名。在全球范圍內,人工智能的研究創新,主要由中國與美國引領,英國值得關注。19%12%5%5%2%6%4%3%3%3%2%6%5%5%4%4%3%3%2%2%美國中國說明:占比(%)指該機構入選的 AI 2000 的頂級學者的數量,相對在該國任職的 AI 2000 的頂級學者的比例。僅統計了中國大陸的
169、企業與高校。State of Generative AI 202334啟明創投 未盡研究第三章 監管、安全與人才從研究到創新從研究到創新頂尖學者主要在大學等科研機構任職,其次就是為科技巨頭的未來服務,還有部分則創辦或加入了人工智能相關的初創企業。DeepMind 與 OpenAI 是最熱的初創企業。大量頂尖學者在這兩家初創企業公開發表最新進展論文,引領著 AI 社區,推動了創新的擴散。尤其是在 GPT-3 發布后,頂尖學者中排名第 11 的 Noam Shazeer 創辦了 Character.ai、排名第 7 的 Manjunath Kudlur 創辦了 Useful Sensors Inc
170、.,排名第 98 的 Dario Amodei 創辦了 Anthropic、排名第 6 的 Richard Socher 創辦了Y 等初創企業興起,推動技術創新在應用場景的落地。機器學習是誕生此類初創企業最多的子領域。在入選了最新的 AI 2000 排名的頂尖學者中,就有 25 人選擇了創業作為新的起點。美國仍是創新的中心,約 3/4 的初創企業位于美國。華人仍是創新的核心群體,占了其中的 1/4,與頂尖人才整體占比水平接近。AI 2000 頂級學者初創企業(GPT-3 發布后成立)的任職情況 說明:跨領域學者重復統計。領域學者機構年份國家安全與隱私Felix SchusterEdgeless
171、 Systems GmbH2020德國Petar TsankovLatticeFlow2020瑞士機器學習Noam ShazeerCharacter.AI2021美國Ashish VaswaniStealth Startup2022美國Soumith ChintalaVoltron Data2021美國Song HanOmniML2021美國Richard SocherY2020美國Jason YosinskiWindscape AI2021美國Dario AmodeiAnthropic2021美國數據挖掘Francesco BonchiSOM S.r.l.2020意大利計算機視覺Andrew
172、 RabinovichHeadroom Inc.2020美國自然語言處理Richard SocherY2020美國Fethi BougaresELYADATA2021突尼斯Myle OttCharacter.AI2021美國語音識別Guoguo ChenSEASALT.AI2020美國Jonathan ShenInference.io2020美國計算機系統Manjunath KudlurUseful Sensors Inc.2022美國Georgios VlachosAxelar2020加拿大Amitabha RoyKumo.AI2021加拿大芯片技術與工具鏈Song HanOmniML202
173、1美國Eriko NurvitadhiMangoBoost2022美國Huizi MaoOmniML2021美國計算機網絡Kiran JoshiOma Robotics2020美國Hongzi MaoHologram Labs2021美國Pankaj BerdeSnickerdoodle Labs2021美國State of Generative AI 202335啟明創投 未盡研究十大展望第四章 十大展望State of Generative AI 202336啟明創投 未盡研究第四章 十大展望大語言模型多模態模型商業機會4當前 CLIP+Diffusion 的文生圖模型是過渡態,未來 2
174、年內將出現一體化的模型結構5下一代 Text-to-Image 模型將具備更強的可控性,它將結合底層模型能力和前端控制方式,對模型的設計將注重與控制方式的結合62025 年 之 前,Video 和3D 等模態將迎來里程碑式的模型,大幅提高生成效果7以 PALM-E 為代表的具身智能(Embodied AI)展現出在機器人的感知、理解和決策等方向上的巨大潛力,但當前訓練和可靠性存在較大挑戰8短 期 內 Transformer 正成為多個模態的主流網絡結構,但壓縮整個數字世界的通用方法尚未出現,Transformer 并不是人工智能技術的終點12024 年中國將出現比肩 GPT-4 的多語言通用大
175、模型2超長上下文(Long Context)將引領下一次 LLM 技術突破3在出現更有前景的大語言模型之前,為實現垂直領域更好的效果,以下三種方式將共存:在不改變數據分布的情況下,利用更多通用數據進行通用大模型預訓練,不特別引入行業數據;利用行業專屬數據微調(Fine-Tuning)通用大模型;利用行業數據占比更高的數據集進行垂直模型預訓練10當前生成式 AI 市場處于技術主導的早期階段,存在千億美元市值的平臺性企業的機會93 年內,顛覆式的 AI 應用的核心驅動力來自于底層模型的創新,兩者無法解耦,模型的作用將大于產品設計的作用State of Generative AI 202337啟明創
176、投 未盡研究關于報告啟明創投啟明創投成立于 2006 年,先后在上海、北京、蘇州、香港,西雅圖、波士頓和舊金山灣區設立辦公室。目前,啟明創投旗下管理 11 只美元基金,7 只人民幣基金,已募管理資產總額達到 95 億美元。自成立至今,專注于投資科技及消費(Technology and Consumer,T&C)、醫療健康(Healthcare)等行業早期和成長期的優秀企業。截至目前,啟明創投已投資超過 530 家高速成長的創新企業,其中有超過 200 家分別在美國紐交所、納斯達克,香港交易所,上交所及深交所等交易所上市,及合并等退出,有 70 多家企業成為行業公認的獨角獸和超級獨角獸企業。AI 1.0 到 AI 2.0 發展的 10 余年中,啟明創投一直是 AI 領域最活躍的創投機構之一。秉持預判趨勢、提前布局的方法論,啟明創投已經投資了二十余家在大模型、視覺、語音、自動駕駛、機器人等領域的領跑企業。未盡研究未盡研究是一家獨立的機構,研究前沿科技和創新,包括人工智能、新能源、生命科技,以及技術與地緣相關的問題。除了日常的分析和報告,未盡研究在每年結束的時候,發布一份有助于“看到”來年技術趨勢的報告看 DAO XXXX。關于報告周健工未盡研究創始人李柯達未盡研究研究總監胡奇啟明創投副總裁周志峰啟明創投合伙人