1、)騰訊研究院CAIGC發展超勢報告2023迎接人工智能的下一個時代騰訊研究院#page#AIGC發展趨勢報告2023迎接人工智能的下一個時代騰訊研究院#page#目錄加福010一、AIGC技術、應用和產業生態迎來發展快車道041、生成算法、預訓練模型、多模態等AI技術累積融合,催生了AIGC的大爆發102、AIGC產業生態加速形成和發展,走向模型即服務(Maas)的未來12二、消費端:AIGC牽引數字內容領域的全新變革131、AIGC有望塑造數字內容生產與交互新范式,成為未來互聯網的內容生產基礎設施172、AIGC的應用生態和內容消費市場逐漸繁榮203、AIGC將日益成為未來3D互聯網的基礎支
2、撐4、聊天機器人和數字人成為新的、更包容性的用戶交互界面,不斷拓展應用領域4285、AIGC將作為生產力工具來推動元宇宙發展31三、產業端:合成數據牽引人工智能的未來1、合成數據為A模型訓練開發提供強大助推器,推動實現AI2.0342、合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間373、合成數據產業加快成為數據要素市場新賽道,科技大廠和創新企業搶先布局394、合成數據加速構建AI賦能、數實融合的大型虛擬世界#page#41四、社會端:AIGC助力可持續社會價值431、元價值:解放人類創造力,革新藝術領域452、AIGC社會價值案例48五、發展與挑戰并生:積極應對AIGC
3、帶來的社會倫理問題491、知識產權挑戰2、安全挑戰5243、倫理挑戰4、環境挑戰5760六、展望:擁抱人工智能的下一個時代,打造可信AIGGC生態#page#前言2022年是AIGC(AI-GeneratedContent,人工智能生成內容)爆火出圈的一年,不僅被消費者追捧,而且備受投資界關注,更是被技術和產業界競相追逐。9月23日,紅杉美國發表文章生成式AI:一個創造性的新世界,認為AIGC會代表新一輪范式轉移的開始。2022年10月,StabilityAI獲得約1億美元融資,估值高達10億美元,路身獨角獸行列。StabilityAI發布的開源模型StableDiffusion,可以根據用戶
4、輸入的文字描述(稱為提示詞,prompts)自動生成圖像,即文生圖(Text-to-lmage,T2I)。StableDiffusion、DALL-E2、MidJourney等可以生成圖片的AIGC模型引爆了AI作畫領域,AI作畫風行一時,標志人工智能向藝術領域滲透。2022年12月,OpenAl的大型語言生成模型ChatGPT刷爆網絡,它能勝任刷高情商對話、生成代碼、構思劇本和小說等多個場景,將人機對話推向新的高度,讓網友們不禁懷疑ChatGPT是否已經具有人類智能。全球各大科技企業都在積極擁抱AIGC,不斷推出相關的技術、平臺和應用。AIGCAI輔助用戶創作AIUGC用戶創作UGC專業制作
5、PGC內容創作模式圖:內容創作模式的四個發展階段從字面意思上看,AIGC是相對于過去的PCG、UCG而提出的。因此,AIGC的狹義概念是利用A自動生成內容的生產方式。但是AIGC已經代表了AI技術發展的新超勢。過去傳統的人工智能偏向于分析能力,即通過分析一組數據,發現其中的規律和模式并用于其他多種用途,比中四以火“螺我中工需工是“心一只福里到吸01#page#分析已經存在的東西,實現了人工智能從感知理解世界到生成創造世界的躍遷。因此,從這個意義上來看,廣義的AIGC可以看作是像人類一樣具備生成創造能力的AI技術,即生成式AI.它可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、
6、視頻、3D交互內容(如虛擬化身、虛擬物品、虛擬環境)等各種形式的內容和數據,以及包括開啟科學新發現、創造新的價值和意義等。因此,AIGC已經加速成為了AI領域的新疆域,推動人工智能迎來下一個時代。Gartner將生成性AI列為2022年5大影響力技術之一。MIT科技評論也將AI合成數據列為2022年十大突破性技術之一,甚至將生成性AI(GenerativeAI)稱為是AI領域過去十年最具前景的進展。未來,兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。如果說AI推薦算法是內容分發的強大引擎,AIGC則是數據與內容生產的強大引擎。AIGC正朝著效率和品質更高、成本更低的方向發展,在某些
7、情況下,它比人類創造的東西更好。包括從社交媒體到游戲、從廣告到建筑、從編碼到平面設計、從產品設計到法律、從營銷到銷售等各個需要人類知識創造的行業都可能被AIGC所影響和變革。數字經濟和人工智能發展所需的海量數據也能通過AIGC技術生成、合成出來,即合成數據(syntheticdata)。未來,人類的某些創造性的工作可能會被生成性AI完全取代,也有一些創造性工作會加速進入人機協同時代人類與AIGC技術共同創造比過去單純人的創造之下更高效、更優質。在本質上,國重“鑫王數來架塑限款工聯咪哥限品光到2+共票得¥彎限光到25N大的勞動生產率和經濟價值。換句話說,正如互聯網實現了信息的零成本傳播、復制,未
8、來AIGC的關鍵影響在于,將實現低成本甚至零成本的自動化內容生產,這一內容生產的范式轉變,將升級甚至重塑內容生產供給,進而給依賴于內容生產供給的行業和領域帶來巨大影響。但是任何技術都是一把“雙刃劍“,AIGC在引領AI技術新超勢和相關產業發展的同時,也可能帶來一定的風險挑戰,諸如知識產權保護、安全、技術倫理、環境影響等。各界需要秉持科技向善理念,負責任地、安全可控地發展應用AIGC,打造安全可信的AIGC技術和應用,以科技向善引領AIGC技術創新發展和應用,實現高質量、健康可持續的發展。01注:國外傾向于不做轉別的區分。AIGC發展超勢報告202302里接人工智能的下一個時代#page#C代全
9、中樓術AIGC技術和產業生態迎來發展快車道胡曉萌本章主筆騰訊研究院研究員7#page#uoa1)影3u(elHualelo)睡米步1S6L“米TX票量Y彩圍ardlsaacson)完成了人類歷史上第一支由計算機創作的音樂作品就可以看作是AIGC的開端,距今已有65年,這期間也不斷有各種形式的生成模型、AI生成作品出現,但是2022年才真正算是AIGC的爆發之年,人們看到了AIGC無限的創造潛力和未來應用可能性。目前,AIGC技術沉淀、產業生態已初步形成,保持強勁發展和創新勢頭。1、生成算法、預訓練模型、多模態等AI技術累積融合,催生了AIGC的大爆發AIGC預訓練模型串聯融合CLPGANDif
10、fusionTransformer圖:AIGC技術累積融合一是,基礎的生成算法模型不斷突破創新。2014年,伊恩古德費洛(lanGoodfellow)提出的生成對抗網絡(GenerativeAdversarialNetwork,GAN)成為早期最為著名的生成模型。GAN使用合作的零和博奔框架來學習,被廣泛用于生成圖像、視頻、語音和三維物體模型等。GAN也產生了許多流行的架構或變種,如DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN、對抗自編碼器(AdversarialAutoencoders,AAE)、對抗推斷學習(Adversa
11、riallyLearnedInference,ALI)等。02圖解:以DALLE2為例,它通過預訓練模型的方式,串聯融合了打道項語言任務的語言模型最終成為支持文學AIGC發展超勢報告202304里接人工智能的下一個時代#page#隨后,Transformer、基于流的生成模型(Flow-basedmodels)、擴散模型(DiffusionModel等深度學習的生成算法相繼涌現。其中,Transformer模型是一種采用自注意力機制的深度學習模型,這一機制可以按照輸入數據各部分重要性的不同而分配不同的權重,可以用在自然語言處理(NLP)、計算機視覺(CV)領域應用。后來出現的BERT、GPT-
12、3、LaMDA等預訓練模型都是基于Transformer模型建立的。而擴散模型(DiffusionModel)是受非平衡熱力學的啟發,定義一個擴散步驟的馬爾可夫鏈,逐漸向數據添加隨機噪聲,然后學習逆擴散過程,從噪聲申構建所需的數據樣本。擴散模型最初設計用于去除圖像中的噪聲。隨著降噪系統的訓練時間越來越長并且越來越好,它們最終可以從純噪聲作為唯一輸入生成逼真的圖片。高斯噪聲樣本X。X.圖:擴散模型結構然而,從最優化模型性能的角度出發,擴散模型相對GAN來說具有更加靈活的模型架構和精確的對數似然計算,已經取代GAN成為最先進的圖像生成器。2021年6月,OpenAI發表論文已經明確了這個結論和發展
13、趨勢。4thesis(2021m2021/07/highusing.htn05#page#模型提出時間模型描述2014年變分自動編碼(Variational基于變分下界約束得到的Encoder-DecoderAutoencoders,VAE)模型對生成對抗網絡(GAN)2014年基于對抗的Generator-Discriminator模型對2015年基于流的生成模型(Flow-學習一個非線性雙射轉換(bijectivebased models)transformation),其將訓練數據映射到另一個空間,在該空間上分布是可以因子化的,整個模型架構依靠直接最大化log-likelihood來完成
14、2015年擴散模型(DiffusionModel)擴散模型有兩個過程,分別為擴散過程和逆擴散過程。在前向擴散階段對圖像逐步施加噪聲,直至圖像被破壞變成完全的高斯噪聲,然后在逆向階段學習從高斯噪聲還原為原始圖像的過程。經過訓練,該模型可以應用這些去噪方法,從隨機輸入中合成新的“干凈”數據。2017年Transformer模型一種基于自注意力機制的神經網絡模型,最初用來完成不同語言之間的文本翻譯任務,主體包含Encoder和Decoder部分,分別負責對源語言文本進行編碼和將編碼信息轉換為目標語言文本神經輻射場(NeuralRadiance2020年它提出了一種從一組輸入圖像中優化連續5DFiel
15、d,NeRF)神經輻射場的表示(任何連續位置的體積密度和視角相關顏色)的方法,要解決的問題就是給定一些拍攝的圖,如何生成新的視角下的圖AIGC發展超勢報告202306里接人工智能的下一一個時代#page#page#預訓練模型應用參數量領域BERT4810億NLP谷歌語言理解與生成NLPLaMDA對話系統5400億NLPPaLM語言理解與生成、推理、代碼生成110億多模態Imagen語言理解與圖像生成200億多模態Parti語言理解與圖像生成cV微軟Florence視覺識別6.4億170億NLPTuring-NLG語言理解、生成NLPFacebookOPT-175B語言模型1750億NLPM2M
16、-100100種語言互譯150億Deep MindGato12億多模態多面手的智能體NLP2800億Gopher語言理解與生成414億NLPAlphaCode代碼生成GPT3NLPOpen AI語言理解與生成、推理等1750億CLIP&DALL-E120億多模態圖像生成、跨模態檢索NLPxopou代碼生成120億NLPChatGPT語言理解與生成、推理等英偉達5300億NLPMegatron-語言理解與生成、推理Turing NLGStable多模態Stability Al語言理解與圖像生成Diffusion國外主要的AIGC預訓練模型一覽表AIGC發展超勢報告202308里接人工智能的下一一
17、個時代#page#三是,多模態技術推動了AIGC的內容多樣性,讓AIGC具有了更通用的能力。預訓練模型更具通用性,成為多才多藝、多面手的AI模型,主要得益于多模型技術(multimodaltechnol-ogy)的使用,即多模態表示圖像、聲音、語言等融合的機器學習。2021年,OpenAI團隊將聯(ndI,Y1bululell-aldabewl-abenbue7annseuo)d香區素到翠行開源。CLIP模型能夠將文字和圖像進行關聯,比如將文字“狗”和狗的圖像進行關聯,并且關聯的特征非常豐富。因此,CLIP模型具備兩個優勢:一方面同時進行自然語言理解和計算機視覺分析,實現圖像和文本匹配。另一方
18、面為了有足夠多標記好的“文本-圖像”進行訓練,CLIP模型廣泛利用互聯網上的圖片,這些圖片一般都帶有各種文本描述,成為CLIP天然的訓練樣本。據統計,CLIP模型搜集了網絡上超過40億個“文本-圖像”訓練數據,這為后續AIGC尤其是輸入文本生成圖像/視頻應用的落地奠定了基礎。在多模態技術的支持下,目前預訓練模型已經從早期單一的NLP或CV模型,發展到現在語言文字、圖形圖像、音視頻等多模態、跨模態模型。2021年3月OpenAI發布AI繪畫產品DALLE,只需要輸入一句文字,DALLE就能理解并自動生成一幅意思相符的圖像,且該圖像是獨一無二的。DALLE背后的關鍵技術即是CLIP。CLIP讓文字
19、與圖片兩個模態找到能夠對話的交界點,成為DALLE、DALLE2.0、StableDiffusion等突破性AIGC成果的基石??偟膩砜?,AIGC在2022年的爆發,主要是得益于深度學習模型方面的技術創新。不斷創新的生成算法、預訓練模型、多模態等技術融合帶來了AIGC技術變革,擁有通用性、基礎性、多模態、參數多、訓練數據量大、生成內容高質穩定等特征的AIGC模型成為了自動化內容生產的“工廠”和“流水線”。09#page#2、AIGC產業生態加速形成和發展,走向模型即服務(Maas)的未來目前,AIGC產業生態體系的維形已現,呈現為上中下三層架構?;A層中間層應用層預訓練模型垂直化、場景化、個性
20、化模型圖像、語音和文字生成等各種各樣的AIGC的應用圖:AIGC產業生態體系的三層架構第一層,為上游基礎層,也就是由預訓練模型為基礎搭建的AIGC技術基礎設施層。由于預訓練模型的高成本和技術投入,因此具有較高的進入門檻。以2020年推出的GPT-3模型為例,AlchemyAPI創始人ElliotTurner推測訓練GPT-3的成本可能接近1200萬美元。因此,目前進入預訓練模型的主要機構為頭部科技企業、科研機構等。目前在AIGC領域,美國的基礎設施型公司(處于上游生態位)有OpenAI、Stability.ai等。OpenAI的商業模式為對受控的api調用進行收費。Stability.ai以基
21、礎版完全開源為主,然后通過開發和銷售專業版和定制版實現商業獲利,目前估值已經超過10億美金。因為有了基礎層的技術支撐,下游行業才能如雨后春算般發展,形成了目前美國的AIGC商業流。第二層,為中間層,即垂直化、場景化、個性化的模型和應用工具。預訓練的大模型是基礎設施,在此基礎上可以快速抽取生成場景化、定制化、個性化的小模型,實現在不同行業、垂AIGC發展超勢報告202310一個時代#page#直領域、功能場景的工業流水線式部署,同時兼具按需使用、高效經濟的優勢。隨著兼具大模型和多模態模型的AIGC模型加速成為新的技術平臺,模型即服務(Model-as-a-Senvice,Maas)開始成為現實,
22、預計將對商業領域產生巨大影響。StableDiffusion開源之后,有很多基于開源模型的二次開發,訓練特定風格的垂直領域模型開始流行,比如著名的二次元畫風生成的Novel-AI,還有各種風格的角色生成器等。第三層,為應用層,即面向C端用戶的文字、圖片、音視頻等內容生成服務。在應用層,側重滿足用戶的需求,將AIGC模型和用戶的需求無縫銜接起來實現產業落地。以StableDiffusion開源為例,它開放的不僅僅是程序,還有其已經訓練好的模型,后繼創業者能更好的借助這一開源工具,以C端消費級顯卡的算力門檻,挖掘出更豐富的內容生態,為AIGC在更廣泛的C端用戶中的普及起到至關重要的作用?,F在貼近C
23、端用戶的工具越發豐富多樣,包括網頁、本地安裝的程序、移動端小程序、群聊機器人等,甚至還有利用AIGC工具定制代出圖的內容消費服務。目前,從提供預訓練模型的基礎設施層公司到專注打造AIGC產品和應用工具的應用層公司,美國圍繞AIGC生長出繁榮的生態,技術創新引發的應用創新浪潮送起;中國也有望憑借領先的AIGC技術賦能干行百業。隨著數字技術與實體經濟融合程度不斷加深,以及互聯網平臺的數字化場景向元宇宙轉型,人D“興區科顯示只業SN“能融說長經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,市場潛力逐漸顯現。與此同時,在推進數實融合、加快產業升級的進程中,金融、醫療、
24、工業等各行各業的AIGC應用也都在快速發展。11#page#6灣費端消費端:AIGC牽引數字內容領域的全新變革本章主筆:胡曉萌騰訊研究院研究員2胡璇騰訊研究院高級研究員徐思彥騰訊研究院高級研究員曹建峰騰訊研究院高級研究員#page#1、AIGC有望塑造數字內容生產與交互新范式,成為未來互聯網的內容生產基礎設施內容生產,特別是創意工作,一向被認為是人類的專屬和智能的體現。如今,AI正大步邁入數字內容生產領域,不僅在寫作、繪畫、作曲等多個領域達到“類人”表現,更展示出在大數據學習基礎上的非凡創意潛能。這將塑造數字內容生產的人機協作新范式,也讓內容創作者和限感封量含“啤謝,需,咪彩軒,群影Y要顯多重
25、數字內容邁入強需求、視頻化、拼創意的螺旋式升級周期,AIGC在這階段的發展迎合了這一需要。從全球來看,人們在線的時間持續增長,在線新聞、音樂、動漫、影視、文學、游戲的市場規模仍在上升。同時,數字內容消費的結構也正轉型升級,從以圖文為主過度到視頻為主,視頻在網絡流量中的占比不斷上升。短視頻和直播的流行,在生產側,讓原本需要長制作周期的視頻變成了可以源源不斷產出的“工業品”;在消費側,過往需要高注意投入、反復觀看的視頻內容變成了一種媒體“貨架”上的“快消品”。最后,創意仍是核心,仍舊稀缺,需要新的模式輔助創作者持續產生、選代和驗證創意。種種因素,都需要更加低成本、高效能的數字內容生產新方式。AIG
26、C正在越來越多地參與數字內容的創意性生成工作,以人機協同的方式釋放價值,成為未來互聯網的內容生產基礎設施。從范圍上看,AIGC逐步深度融入到文字、音樂、圖片、視頻、3D多種媒介形態的生產中,可以擔任新聞、論文、小說寫手,音樂作曲和編曲者,多樣化風格的畫手,長短視頻的剪輯者和后期處理工程師,3D建模師等多樣化的助手角色,在人類的指導下完成指定主題內容的創作、編輯和風格遷移。從效果上看,AIGC在基于自然語言的文本、語音和圖片生成領域初步令人滿意,特別是知識類中短文,插畫等高度風格化的圖片創作,創作效果可以與有中級經驗的創作者相匹敵;在視頻和3D等媒介復雜度高的領域處于探索階段,但成長很快。盡管A
27、IGC對極端案例的處理、細節把控、成品準確率等方面仍有許多進步空間,但蘊含的潛力令人期待。13#page#從方式上看,AIGC的多模態加工是熱點。吳恩達(AndrewNg)認為多模態是2021年AI的最重要超勢,AI模型在發現文本與圖像間關系中取得了進步,如OPENAI的CLIP能匹配圖像和文本,DallE生成與輸入文本對應的圖像;DeepMind的PerceiverIO可以對文本、圖像、視頻和點云進行分類。典型應用包括如文本轉換語音、文本生成圖片,廣義來看Al翻譯、圖片風格化也可以看作是兩個不同“模態”間的映射。PRE-20202020120222023?20259eocozSaconddr
28、atFistdrtsCODArVIDEO部GAIMG圖:AIGC基礎模型和應用發展預測(引用自紅杉資本)6AIGC在新研究范式及算力進步下加速發展,特別是自然語言理解能力大幅進化,典型代表是GPT系列模型。自然語言是不同數字內容類型間轉化的根信息和紐帶,比如“貓”這個詞語就是加菲貓的照片,音樂劇貓和無數內容的索引,這些不同的內容類型可以稱為“多模態”。創作者以自然語言描述要素、特征后,AI就能生成對應的不同模態的結果。2017年Google發布的Transformer開啟了大型語言模型(Largelanguagemodel,簡稱LLM)時代。它作為更強大的特征提取器,生成的語言模型質量高、效率
29、高,被應用到后續的GPT、BERT等各種預訓練語言模型中,以大數據預訓練+小數據微調的方式,擺脫了對大量人工調參的依賴,在手寫、語音和圖像識別、語言理解方面的表現大幅突破,所生成的內容也越來越準確和自然。AIGC發展趨勢報告20214#page#但大模型的高算力要求對普通用戶不友好,這使AIGC長期只是小圈子的愛好,例如GPT-3有1750億參數量,既需要大算力集群也不開放。2022年,先是部署在論壇discord上、以聊天機器人形式向用戶開放的midjourney引起關注,一位設計師用其生成的圖片甚至在線下比賽中獲獎。2022年,StableDiffusion等文本生成圖片產品,第一次讓大眾
30、感受AIGC的魅力。開源的StableDiffusion僅需一臺電腦就能運行,截至10月已有超過20萬開發者下載,累計日活用戶超過1000萬;而面向消費者的DreamStudio則已獲得了超過150萬用戶,生成超過1.7億圖片。圖:游戲設計師杰森艾倫使用Midjourney模型生成的太空歌劇院是首個獲獎的AI生成藝術在AIGC圖像生成火爆的同時,ChatGPT橫空出世,真正做到和人類“對答如流”,能理解各式各樣的需求,做出回答、短文和詩歌創作、代碼寫作、數學和邏輯計算等。ChatGPT可以看作GPT3.5版本,使用了人類反饋強化學習(RLHF)技術,能持續學習人類對回答的建議和評價,朝更加正確
31、的方向前進。ChatGPT基于這一思想,用不到GPT3的1%的參數實現了極佳的效果。但是也依然存在一些缺陷,例如引用不存在的論文和書籍,誤解和扭曲直觀的自然科學知識和歷史事實。在AIGC技術開源的背景下,AIGC圖片生成也促進了小眾文化的發展。早在2022年五月,QQ影像中心推出的國內第一款基于AIGC的“AI戀愛專屬畫”520活動就在QQ小世界走紅,輕國器步涂,強長味,宏用#緊只騙15#page#page#opo圖:QQ小世界二次元風格生成流程圖2、AIGC的應用生態和內容消費市場逐漸繁榮AIGC在學習通用知識和理解泛化上有更好的表現,這是之前的生成模型沒有體現出來的能力。這也決定了AIGC
32、不光是生成,而是建立在認知與理解上的模型的應用生態。2020年,OpenAI推出1750億參數的預訓練語言模型GPT-3,在國內外抓起千億參數預訓練模型的研究浪潮。實際上,那時就出現了專門做文字生成的商業公司,如Jasper.ai與Copy.ai。而今在內容消費領域,AIGC已經重構了整個應用生態。AIGC在內容生成領域有以下優勢特征:(1)自動內容生成:大型語言和圖像AI模型可用于自動生成內容,例如文章、博客或社交媒體帖子。對于定期創建內容的企業和專業人士來說,這可能是一種寶貴的節省時間的工具。2022年初,DiscoDiffusion給行業帶來很大的沖擊,其在生成速度、效果,還有詞條內容的
33、豐富性等方面都有了顯著的改進。架設在社交平臺Discord上的Midjourney,因其使用便捷與相對較好的效果,在社會層面得到了很大的關注。(2)提高內容質量:AIGC生成的內容可能比人類創建的內容質量更高,因為人工智能模型能夠從大量數據中學習并識別人類可能看不到的模式。這可以產生更準確和信息更豐富17#page#的內容。DALLE2和Google的Imagen都可以通過文字來要求AI畫出特別具體的內容,而且效果已經接近于中等畫師的水平。今年8月,StableDiffusion的開源模型生成的面部和肢體相較于DiscoDiffusion自然了許多。(3)增加內容多樣性:AIGC模型可以生成多
34、種類型的內容,包括文本、圖像和音視頻、3D內容等等。這可以幫助企業和專業人士創建更多樣化、更有趣的內容,從而吸引更廣泛的人群。2021年底,VQGAN+CLIP(Vector Quantised General Adversarial Network +ContrastiveLanguage-lmagePre-training)技術串聯,可以生成抽象繪畫作品。2022年9月29日,MetaAI公布了一款基于文本生成視頻短片的系統“Make-A-Video”,不僅能夠通過提示詞生成幾秒連貫的視頻,并且有“超現實的”、“現實的”、“風格化”的視頻變種供調整,而且也能從一兩張圖片生成視頻,或者根據一
35、小段視頻片段派生不同風格、拍攝角度、相似動作的視頻變種。(4)內容制作成本低、門檻低:基于AIGC,內容制作的成本顯著降低、效率顯著提高,可以實現以十分之一的成本,以百倍千倍的生產速度,創造出有獨特價值和獨立視角的內容。而且AIGC也降低了用戶的內容制作門檻,即使是毫無繪畫基礎的用戶也能借助AIGC工具,畫出高質量的作品。(5)可實現個性化內容生成:人工智能模型可以根據個人用戶的喜好生成個性化內容。這可以幫助企業和專業人士創建目標受眾更有可能感興趣的內容,因此更有可能被閱讀或分享。比如,基于StableDiffusion的二次元畫風生成工具Novel-Al,可以滿足小眾的二次元群體的喜好和內容
36、需求,一定程度上也促進了小眾文化的發展。AIGC已經披起了一場內容生產的革命。在內容需求旺盛的當下,AIGC所帶來的內容生產方式變革也開始引起了內容消費模式的變化。AI繪畫是AIGC的一大重要分支。它可以提高美術素材生產效率,在游戲、數字藏品領域初步得以應用。文字生成圖片(Text-to-lmage,T2I)是目前AI繪畫的主流生成方式,用戶輸入文本命令便可生成相應效果圖。對于游戲開發者而言,T2工具在概念構思階段可迅速提供多種創作方向,并降低初期投入成本,在開發過程中=17429508902659553838VAIGC發展趨勢報告20218里接人工智能的下一個時代#page#亦可批量生產石頭
37、花紋、花草樹木等通用型貼圖素材。藝術是另一應用領域,全球最大的AI生成藝術畫廊ArtA以歷史上大量藝術品的時期、流派、風格等為靈感生成數字藏品,單字僅能使用一次的機制保障每份數字藏品對應不同的文本內容,從而保障其唯一性。2022年10月,海外知名圖庫Shutterstock就公布說他們與OpenAI建立了合作,讓用戶可以輸入文字即時生成滿足需求的原創圖片。Adobe、Gettylmages也將圖像生成模型集成到他們自己的產品和服務中。這些動作不僅是一個傳統企業的及時反應,實際上還意味著AIGC商業化變現的一個想象似乎開始落地:打造一個基于生成的全新內容平臺。TextVideoSALEVERHN
38、copy.aiOrogooDLAVENDERRrunOJasperSmriADUNGENpiowAuewesonkALIZEO VI CONTENDAH.tavustsRytrHourOnegleonEXWRTECodelmagefowrofu8 tobninoGOreplitownaustabilityicraiyonstabilityaiOMintlfy9cogromSALTROSEBUDADESIGNMODELS:OPENAIOPT3STABILITY.AIlevicaDiagramOtherplaygrundSpeechMUSICSTADLE DIFFUSIADUNGEN3DOIVST
39、MAodcast.aiAdeptELS/SCENECOM圖:AIGC應用現狀概覽(引用自紅杉資本)19#page#AIGC作為當前新型的內容生產方式,已經率先在傳媒、電商、影視、娛樂等數字化程度高、內容需求豐富的行業取得重大創新發展,市場潛力逐漸顯現。2022年,AIGC發展速度驚人,選代速度呈現指數級爆發,谷歌、Meta、百度等平臺型巨頭持續布局,也有StabilityAI、Jas-perAI等獨角獸創業公司出世。AI繪畫已經能承擔圖像內容生成的輔助性工作,前期初稿的形成可以由AI提供,后期再由創作者進行調整,從而提高內容產出效率。根據6pen預測,未來五年10%-30%的圖片內容由AI參與
40、生成,有望創造超過600億以上市場空間,若考慮到下一代互聯網對內容需求的迅速提升,國外商業咨詢機構AcumenResearchandConsulting預測,2030年AIGC市場規模將達到1100億美元。3、AIGC將日益成為未來3D互聯網的基礎支撐互聯網向下一代技術升級和演進的重要方向是從“在線”走向“在場“,邁向3D互聯網時代,AIGC將成為打造虛實集成世界的基石。人們將在在虛擬空間構建仿真世界,在現實世界“雪加”虛擬增強,實現真正的臨場感。隨著XR、游戲引擎、云游戲等等各種交互、仿真、傳輸技術的突破,信息傳輸越來越接近無損,數字仿真能力真假難辯,人類的交互和體驗將到達新階段。AIGC為
41、3D互聯網帶來的價值,既包括3D模型、場景、角色制作能效的提升,也能像AI作畫那樣,為創作者激發新的靈感。傳統的3D制作需要耗費大量時間和人力成本。以2018年發售的游戲荒野大漂客2為例,為了打造約60平方公里的虛擬場景、先后有六百余名美術歷經8年完成。程序化內容生成技術(PCG,ProceduralContentGeneration)是一種在效能和可控度上介于純手工和AIGC之間的產出方式。2022年的交互內容黑客帝國:覺醒中就采用了這項技術,在最新引擎技術的加持下,虛擬城市共包括700萬個實例化資產,每個資產由數百萬個多邊形組成,包括7000棟建筑、38000輛可駕駛的車和超過260公里的
42、道路。AIGC發展趨勢報告20220#page#step5:city line adjustmentreal time 30 min圖:Epic使用虛幻5引擎和程序化生成技術高效制作黑客帝國:覺醒中的龐大城市,圖片引用自知乎用戶王程2016年發布、主打宇宙探險的獨立游戲無人深空(NoMansSky)聲稱創造了1840億顆不同的星球,每個星球都有形態各異的環境和生物。游戲正是用PCG構造了一系列生成規則和參數,用數學函數和極少的數據量生成了這個看似無限的游戲宇宙。圖:游戲無人深空中自動化生成的海洋生物示例盡管如此,距離“復刻”真實世界和打造干千萬萬個幻想世界,這樣的速度還是太慢了。為什么在文字、
43、圖片領域大放異彩的AI,沒有繼續快速“征服”3D領域呢?21#page#AI直接生成3D內容,比2D圖片難度大得多。首先,信息量不同,一張圖片和一個3D模型相比,本身蘊含的信息量就有數量級的差距;其次,圖片和3D的實質不同,如果說2D是像素點陣在顯示器的客觀陳列,3D則是實時、快速、海量的矩陣運算,就像對著模型在1秒內圖器“丁器當彎張票,心母質驗秋“,+#少有:(1)模型幾何特征,通常用幾千上萬個三角面來表示:(2)材質特征,模型本身的顏色,是強反射的金屬,還是漫反射的布料;(3)光線,光源是點狀的嗎,顏色和強度如何。最后,原生3D模型的數據相對較少,遠不如已存在了數千年、可以以非數字化形態存
44、在的圖像那么多,例如ImageNet中就包含了超過1400萬張圖片?,F階段,AIGC在3D領域的突破,主要是從圖片、現實中存在的物體取材后,再由AI介入進行轉化。計算機視覺技術的進步,為3D另辟踩徑:我們可以通過圖片來推測物體在3D空間中的形態,盡可能還原每個像素點原本的深度信息。采用激光雷達等設備掃描物理世界,能快速得到大量3D模型。當然,這些素材要經過簡化處理才能更好使用。因為它們攜帶了海量的坐標點和顏色信息,呈現起來耗費的計算資源多。想要應用在影視、游戲、元宇宙等場景中,和運行在電腦、手機等設備中,需要經過一系列的后處理,比如讓模型的幾何表示更簡潔,還原材質信息、盡可能去除拍攝時的光照影
45、響等。處理后的模型,也會具有更強的可編輯性,比如更改它原本的形狀、顏色等。目前AIGC在3D模型領域還處于探索階段,從基本原理和使用的模型來看,仍然以擴散模型為基礎,基于文字圖片-3D路徑進行處理。谷歌和英偉達在這一領域較為領先,先后在OE工Y“事Y可oNOE己事ZZOZ容的平均質量還有距離;生成速度也未能盡如人意。10月,谷歌率先發布了DreamFusion,它能夠使用文本到圖像模型先生成2D圖像,然后優化為體積NeRF(神經輻射場)數據。但其缺點也很顯著,首先擴散模型僅對64x64的圖像生效,導致生成3D的質量不高;其次場景泣染模型使基于Mip-NeRF360的大型MLP,不僅需要海量樣本
46、,也在計算上費時費力,導致生成速度較慢。10NVIDIA研究團SA,2022-9-26AIGC發展超勢報告202322里接人工智能的下一個時代#page#隨后,英偉達發布了Magic3D,同樣是從文字描述中生成3D模型的AI模型。在輸入諸如“一只坐在睡蓮上的藍色毒鏢蛙”這樣的提示后,Magic3D在大約40分鐘內生成了一個3D網格模型,并配有彩色紋理。Magic3D的轉換分為兩步,先將低分辨率生成粗略模型,再優化為高分辨率的精細模型,而且使用InstantNGP的哈希特征編碼,高分辨率圖像特征表示的計算成本大大降低,因此比谷歌DreamFusion的3D生成速度更快、效果更好。同時,與只經一)
47、州回里留臥中圓我生地OC.be“面解輕在品士圖威以“一致性”),并將2D圖像(如立體派繪畫)的風格應用于3D模型。研究人員表示,模型完善后有望使3D合成技術進一步普及,并激發每個人在3D內容上的創造力。所產生的技術可以加速游戲和VR應用的開發,可能最終會在電影和電視的特效制作中實現落地應用。等C圖:Magic3D(第1、3列)與DreamFusion(第2、4列)對比借助AI從圖片直接生成3D也是一條切實可行的路徑。英偉達在12月的NeurIPS上展示了AIGC模型GET3D(GenerateExplicitTextured3D的縮寫),具備生成具有顯示紋理的3D網格的能力,可根據其所訓練的建
48、筑物、汽車、動物等2D圖像類別,即時合成3D幾何體。AIGC生成的物體具有高保真的紋理和復雜的幾何細節,并且以常用圖形軟件應用中所使用的三角網格格式創建,這使得用戶可以十分輕松地將這些幾何體導入3D漳染器和游戲引擎,以進行后續編輯??捎糜跇嫿橛螒?、機器人、建筑、社交媒體等行業設計的數字空間,比如建筑物、戶外空間或整座城市的3D表達。該模型是在NVIDIAA100TensorCoreGPU上使用從不同相機角度拍攝的約100萬張3D幾何體的2D圖像訓練而成,每秒可生成約20個物體。23#page#圖:NVIDIAGET3D基于AI生成的具有光影效果的3D物體模型結合團隊的另一項技術,AI生成的模
49、型的可編輯性會大幅加強。6月發布的成果顯示,在分離3D物體中的材質和光照方面取得了重大進展,這反過來又提高了AI生成幾何體的可編輯能力,創造者們能夠輕松地對在場景中移動的物體替換材質或者調整光照。4、聊天機器人和數字人成為新的、更包容性的用戶交互界面,不斷拓展應用領域(1)聊天機器人:2022年12月1日,美國人工智能研究公司OpenA/研發的AI聊天機器人產品ChatGPT正式對外開放,一經推出便火遍全網,截至12月12日已擁有超過100萬名用戶。而ChatGPT正是典型的文本生成式AIGC。ChatGPT采用Web瀏覽器上的對話形式交互,不僅能夠滿足與人類進行對話的基本功能,能夠回答后續問
50、題、承認錯誤、質疑不正確的前提和拒絕不適當的請求。而且,根據各領域的用戶在使用后反饋,ChatGPT還可以駕馭各種風格和文體,且代碼編輯能力、基礎腦力工作處理能力等一系列常見文字輸出任務的完成程度也大大超出預期。比如根據關鍵詞或提問,生成劇本、發言稿等多種文書。因此,業內人士宣稱ChatGPT已經大幅超越過去的AI問答系統。111Y-8HSVFQ26X-n75cyKwAIGC發展趨勢報告20224#page#未來隨著性能的進一步提升,對話式AIGC在搜索、知識傳播等領域有很大的應用空間。正如OpenAI的CEOSamAltman在Twitter上說過,AIGC的最終目標是做一個類似于像新時代的
51、搜索引擎。目前,從ChatGPT展示出來的內容輸出質量和內容覆蓋多維度,已經可以直面“搜索引擎”與“問答社區”。根據紐約時報報道,谷歌及其母公司Alphabet的首席執行官SundarPichai參加了幾次圍繞谷歌人工智能戰略的會議,并指示公司的許多團隊重新集中精力解決ChatGPT對其搜索引擎業務構成的威協。近日,谷歌并為ChatGPT帶來的威協發布“紅色警報”,著手進行緊急應對。13R8圖:有網友將Google和ChatGPT進行了對比,分別在Google搜索和ChatGPT中提出了同一個問題(2)數字人:數字人、虛擬機器人是數字智能體(digitalagent),作為新的交互形式,目前已
52、有很多應用,包括元宇宙應用中的NPC虛擬角色、用戶虛擬替身/虛擬形象(avatar),主要分為真人驅動和AI驅動兩種。這里主要閘述由AI驅動的數字人。d_2128287325#page#page#技術階段作用和目的ASR感知階段將人的語音轉換為文本NLP決策階段處理并理解文本,以對話能力為核心,為數字語音理解人的大腦S表達階段將需要輸出的文本合成為語音AI驅動嘴形表達階段建立輸入文本到輸出音頻與輸出視覺信息的動作關聯映射,主要是對采集到的文本到語音和嘴形視頻(2D)/嘴形動畫(3D)的數據進行模型訓練,得到相關模型,并智能合成動作合成AI驅動其他表達階段動作是采用隨機策略或者腳本進行預設,需動
53、作要人工配制描述性的數據或者標簽表:AIGC支撐AI驅動數字人多模態交互數字人進化的趨勢,一是融入會話式AI系統(ConversationalAI),給傳統的Siri等虛擬助手、智能客服等聊天機器人以一個具象化、有親和力的人類形象,提升交流中情感的連接,有望給這一領域帶來更大的市場前景。據機構統計,2021年會話式AI的全球市場規模為68億美元,預計到2026年將增長到184億美元。隨著線上空間日益豐富,更多普通用戶也希望擁有自己的個性化虛擬形象,因此,數字人進化的第二個方向是制作工具更豐富、更易用。例如Epi在虛幻引擎中集成的虛擬人工具Metahuman,用戶可以在系統提供的基礎形象模板上修
54、改參數,僅用30分鐘就能“捏”成獨一無二的形象??烧{節內容既包括整體的膚色、身材,也包括細節的面龐輪廊、五官大小等。未來,對話式AI系統、先進的實時圖形處理等技術的結合,將使得數字人、虛擬助手、虛擬伴侶、NPC等數字智能體(digitalagent)能夠逼真地模仿人類的音容笑貌,變得更加智能化、人性化。這將帶來更復雜的、自然交互的AI虛擬角色,除了模仿人類的語言表達,還具有表情、肢體語言、情緒甚至物理交互等能力,給用戶提供更直27#page#觀的、更具沉浸感的數字化體驗??梢哉f,數字人等新型AI角色將決定VR/AR、元宇宙等未來互聯網應用的體驗質量和吸引力。5、AIGC將作為生產力工具來推動元
55、宇宙發展元宇宙最令人興奮的特征之一是它的可擴展性潛力,它將極大擴展人類在虛擬世界的生存空間。但是問題在于,誰來建造這個巨大的世界?它將如何填充內容?如今,創建高保真3D模型或虛擬人通常需要大量的計算機科學家和數字藝術家。面對這個空間所需要的大量的數字內容,單靠人工來設計和開發根本無法滿足需求,而AIGC將是新的元宇宙內容生成解決方案。近期,Linkedin做了一個調查,向Linkedin用戶征集他們最希望了解哪個元宇宙相關的技術主題,76%的受訪者選擇了AIGC。14只有通過AIGC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內容需求。圖:扎克伯格在元宇宙的島嶼上,可以通過發出語音命
56、令變換天氣、生成創建海灘等不同場導rk=public_posAIGC發展趨勢報告202328里接人工智能的下一個時代#page#首先,AIGC為構建沉浸式的元宇宙空間環境提供了核心基礎設施技術,將成為元宇宙的生產力工具。元宇宙在理論上可以用于工作、會議、游戲以及生活社交等各種人類活動,因此需要在元宇宙空間中創建各種各樣的活動對象、建筑和活動環境。但是,在過去,為了構建這些數字環境,需要開發團隊半手工地創建每一個部分,從山丘到大海,用鼠標拖動來放置樹木或家具,而現在AIGC已經可以實現創建逼真的3D虛擬空間環境、虛擬人物,并且效率和成本可以滿足大規模的元宇宙空間環境創建。在元宇宙發展的過程中,游
57、戲是虛擬世界重要的載體,將需要大量數字原生的場景。AIGC可以極大提高數字原生內容的開發效率,降低游戲開發成本。具體來說,劇情、角色、頭像、道具、場景、配音、動作、特效、主程序未來都可以通過AIGC生成。通過AIGC加速復刻物理世界、進行無限內容創作,從而實現自發有機生長。例如,當用戶朝任何方向行走時,游戲Minecraft的世界地圖會通過AIGC生成模型無限擴展。NVIDIA也開發了AIGC生成模型,僅通過將2D視頻輸入來創建語義標記和可修改的3D環境。正如Unity人工智能高級副總裁DannyLange所言:“市政府想要通過城市的數字李生來做一些規劃。而城市數字李生很難聘請大量的技術開發人
58、員來編寫代碼。而此時就是AIGC的用武之地?!?5而且AIGC能夠釋放開發人員的生產力,幫助開發人員編寫代碼,使開發人員可以花更少的時間編寫代碼,而花更多的時間來表達需求,最終實現生產力的大幅提升,以及元宇宙空間環境的建成速度。其次,AIGC將作為生產力工具為元宇宙用戶提供個性化內容體驗。大量個性化、多元化的數字內容是吸引人們進駐元宇宙的重要原因,而這些內容如果僅通過人工方式來生產既成本高又耗時長,肯定遠遠無法滿足用戶的海量需求,因此,需要AIGC作為生產力工具來滿足和境充Metaverse等內容乏的虛擬世界。NFT便是AIGC的一個很好的例子。BoredApeYachtClub和Crypto
59、Punks等NFT項目開始于創作10.000件獨特的藝術品。如果沒有AIGC的支持,這項工作將需要一個數字藝術家團隊數周才能完成,然而這兩個項目都是由兩個軟件開發人員完成的。29#page#同時,AIGC將賦予用戶更多的創作權力和自由,促進創新并提升元宇宙的用戶體驗。比如用戶可以使用手機拍攝的一系列照片,通過AIGC工具生成一個可以使用的3D宣染圖。采用這種創造內容的方式,我們可以想象未來的元宇宙體驗將不再完全由開發人員構建,而是利用AIGC響應用戶的輸入按需生成最后,AIGC也將作為用戶交互界面的一部分在元宇宙中發揮作用。元宇宙中不僅有用戶,還共SDN用“照互用SdN來性型ChatGPT便可
60、以作為語言模型中集成到各種智能體中充當元宇宙中高度逼真的虛擬助手或伙伴,執行“智能”動作和更為復雜的任務。例如,Meta已經提出了創建智能助手的計劃,用戶可以向助手發出簡單的語音指令繼而創建他們想要的虛擬現實設置類型。16AIGC發展趨勢報告20230里接人工智能的下一個時代#page#CCC產業端產業端:合成數據牽引人工智能的未來本章主筆曹建峰騰訊研究院高級研究員陳楚儀騰訊研究院高級研究員B#page#隨著AIGC技術持續創新發展,基于AIGC算法模型創建、生成合成數據(syntheticdata)迎來重大進展,有望解決AI發展應用過程中的數據限制,進一步推動AI技術更廣泛的應用。因此,業界
61、非??春煤铣蓴祿陌l展前景及其對人工智能未來發展的巨大價值。Forrester、埃森哲(Accenture)i、Gartner、CBInsights等研究咨詢公司都將合成數據列為人工智能未來發展的核心要素,認為合成數據對于人工智能的未來而言是“必選項”和“必需品”。例如,Forrester將合成數據和強化學習、Transformer網絡、聯邦學習、因果推理視為實現人工智能2.0的五項關鍵技術進展,可以解決人工智能1.0所面臨的一些限制和挑戰,諸如數據、準確性、速度、安全性、可擴展性等。Gartner預測稱,到2030年合成數據將徹底取代真實數據,成為AI模型所使用的數據的主要來源。MIT科技評
62、論將AI合成數據列為2022年十大突破性技術之一,稱其有望解決AI領域的數據鴻溝問題。數據是人工智能的燃料和驅動力,合成數據將極大拓展人工智能發展應用的數據基礎,可以認為,合成數據關乎人工智能的未來。在概念上,合成數據是計算機模擬(computersimulation)技術或算法創建、生成的自標注(annotated)信息,可以在數學上或統計學上反映真實世界數據的屬性,因此可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。簡而言之,合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。合成數據擁有很長的歷史,在其發展過程中技術不斷創新。例如,游戲引擎、3D圖形等模擬技術(simu
63、lationtechnology)可以創建高保真的仿真物體和仿真環境,而結合了AI技術的3D-AI技術則可以極大提升自動化生產3D內容的效率和保真度(fidelity)。得益于生成對抗網絡(GAN)、變分自編碼器(VAE)、Transformer模型、擴散模型(DiffusionModel)、神經輻射場模型(NeRF)等不斷涌現的AI算法,不僅合成數據的種類得到了擴展,而且其質量也不斷得到提升。就目前而言,合成數據大致可分為三類:表格數據/結構化數據,圖像、視頻、語音等媒體數據,以及文本數據。2這幾類合成數據在多個領域都有應用。AIGC技術的持續創新,讓合成數據迎來新的發展契機,開始進發出更大
64、的產業發展和商業應用活力。-releases/2022-06-22-is-synthetihttps/202200223/1044965/ai-syntheticdat-2/b0f7152fe9ehttps:價AIGC發展超勢報告202332里接人工智能的下一個時代#page#1、合成數據為AI模型訓練開發提供強大助推器,推動實現AI2.0人工智能的發展應用離不開數據,但真實世界數據面臨著難以獲取、質量差、標準不統一等諸多問題。為此,計算機模擬技術或算法生成的合成數據,作為真實數據數據的廉價替代品,日益被用于創造精準的AI模型。合成數據服務商Al.Reverie指出,人工標注一張圖片可能需要6
65、美元,但人工合成的話只需要6美分。2019年的一篇論文合成數據用于深度學習(syn-theticdatafordeeplearning)認為,合成數據是現代深度學習領域冉冉升起的最具前景的通用技術之一,尤其對于依賴于圖像、視頻等非結構化數據的計算機視覺技術而言;并認為合成數據對于人工智能的未來發展至關重要。而且,研究表明在AI模型的訓練開發上,合成數據相比基于真實物體、事件或人物的數據,可以發揮同樣好甚至更好的效果?!笨傊?,合成數據技術可以實現更廉價、更高效地批量生產制造AI模型訓練開發所需的海量數據(諸如訓練數據、測試數據、驗證數據等等),作為對真實數據的替代或補充,將推動人工智能邁向2.0
66、階段,從本質上擴展AI的應用可能性??梢哉f,目前人工智能仍處在1.0階段(AI1.0),數據是最大望時,業界利用真實世界數據訓練AI模型面臨多方面問題:數據采集、標注費時費力、成本高企;數據質量較難保障;數據多樣化不足,難以覆蓋長尾、邊緣案例,或者特定數據在現實世界中難以采集、不方便獲??;數據獲取與使用、分享等面臨隱私保護挑戰和法規限制,等等。這些數據方面的限制在很大程度上阻礙了人工智能更廣泛的應用和部署。合成數據有望解決這些問題,推動人工智能邁向2.0階段(AI2.0),可以在更大程度上拓展人工智能的應用。具體而言,對于人工智能而言,合成數據可以發揮諸多價值:(1)實現數據增強和數據模擬,解
67、決數據圈乏、數據質量等問題,包括通過合成數據來改善基準測試數據(benchmarkdata)的質量等;(2)避免數據隱私/安全/保密問題,利用合成數據訓練AI模型可以避免用戶隱私問題,這對于金融、醫療等領域而言尤其具有意義;(3)確保數據多樣性更多反映真實世界,提升AI的公平性,以及糾正歷史數據中的偏見,消除算法歧視;(4)應對長尾、邊緣案例,提高AI的準確性、可靠性,因為通過合成數據可以自動創建、生成現實世界中難以或者無法采集的數據場景,更好確保AI模型的準確性;(5)提升AI模型訓練速度33#page#和效果??傊?,利用合成數據可以更廉價、更高效、更準確、更安全可靠地訓練A模型,進而極大擴
68、展AI的應用可能性,將人工智能推向新的發展階段。2、合成數據助力破解AI“深水區”的數據難題,持續拓展產業互聯網應用空間合成數據早期主要應用于計算機視覺領域,因為計算機視覺被廣泛應用于自動駕駛汽車、機器人、安防、制造業等領域,在這些應用場景中打造AI模型都需要大量的被標注的圖像、視頻數據。但獲取現實數據往往并非易事。以自動駕駛汽車為例,由于實際道路交通場景千變萬化,讓自動駕駛汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現實的,必須借助于合成數據才能更好地訓練、開發自動駕駛系統。為此,自動駕駛企業開發了復雜的仿真引擎來“虛擬地合成”自動駕駛系統訓練所需的海量數據,并高效地應對駕駛
69、場景中的“長尾”問題和“邊緣案例”。例如,騰訊自動駕駛實驗室開發的自動駕駛仿真系統TADSim可以自動生成無需標注的各種交通場景數據,助力自動駕駛系統開發。在安全的、合成的仿真環境中,計算機可以模擬任何人類想象得到的駕駛場景,諸如調節天氣狀況、添加或移除行人、改變其他車輛的位置等等??梢哉f,合成數據和仿真技術是自動駕駛的核心支撐技術。最早涌現的一批合成數據創業公司就曬準的是自動駕駛汽車市場,幫助自動駕駛企業解決其在自動駕駛系統開發過程中所面臨的數據和測試難題。目前,合成數據正迅速向金融、醫療、零售、工業等諸多產業領域拓展應用。合成數據在金融服務領域的探索仍處于早期且不斷拓展,并且受到咨詢公司、
70、金融巨頭和監管機構的關注。合成數據背后的生成式AI被Gartner評為2022年銀行和投資服務領域越來越受歡迎的三項技術之一。2生成性AI受歡迎的原因是能夠通過合成數據以成本更低、易規?;?、隱私保護合規的方式提供接近真實世界的數據。而在銀行和投資服務領域,生成對抗網絡(GAN)和自然語言生成(NLG)的應用可以在大多數欺詐檢測、交易預測、合成數據生成和風險因素建模的場景中找到。例如,美國運通(AmericaExpress)利用GAN創建合成數據來訓練、優化其進行欺詐檢測的AI模型。谷歌利用AI生成的醫療記錄來幫助預測保險詐騙(insurancefraud)。2022-05-24-trerds-
71、gaining-tAIGC發展超勢報告202334#page#摩根大通(J.P.Morgan)2021年9月在其官網發布相關研究,提出通過生成合成數據集加快金融服務領域的AI研究和模型開發,來改善服務體驗、解決欺詐檢測和反洗錢等重要問題。國外金融服務業所產生的大量真實數據因為法律限制(如歐盟的GDPR和美國的CCPA)和隱私保護要求無法使用或使用存在諸多限制。合成數據創造的新樣本具有真實數據的性質,增加真實數據中的軍見樣本,以便更有效地訓練機器學習算法。一個關鍵的領域是欺詐檢測模型訓練。由于欺詐性案件的數量與非欺詐性案件相比較十分稀少,研究人員很難有效地從可用數據中訓練模型,導致無法針對欺詐性
72、行為進行建模。然而,合成數據可以生成比實際數據中欺詐案例比例更高的合成數據樣本,用于幫助改進模型訓練。MetricsReal DataReal DataMetricDataic DataSynthetic DataGenerator圖:金融數據合成過程(來源:摩根大通官網)英國金融行為監管局(FinancialConductAuthority,FCA)也積極跟進合成數據作為一項隱私保護技術在金融行業的應用前景。FCA在2022年3月的公開報告中指出,合成數據通過生成統計學上真實(statisticallyrealistic)的但“人造”(artificial)的數據,為數據共享提供更多的機會。
73、技術的應用有利于提供更普及、更高效、更好提升消費者體驗的金融服務,目前的應用領域包括:金融犯罪和欺詐預防、信用評分、銷售和交易、保險產品定價和索賠管理、資產管理和組合優化等。值得注意,合成數據也存在通過逆向工程來獲取真實數據的風險,對數據隱私保護而言并非完美的解決方案。2為此,FCA已經通過公開征求意見來了解業界對合成數據支持創新的潛力和滿足企業有效需求的看法以及潛在的限制和風險。https:/wwW.2835#page#Synthetic datasetsSyntheticallyaugmented datasetsMultivariatMultivariateValidPlausibleR
74、eplicaStructuralPlausibleDetailedDisclosure RiskAnalytic value圖:合成數據存在真實數據泄露風險(來源:英國國家統計辦公室在醫療領域,醫療影像的合成數據正對醫療AI領域的發展產生巨大推動作用。例如,創業企業Curai基于仿真的醫療案例數據訓練了一個醫療診斷模型,表明合成的醫療數據同樣可以用于支持醫療AI應用的開發。美國生物技術公司llumina和合成數據創業公司Gretel合作,利用合成的基因組數據來進行醫學研究,以避免限制性立法、病人同意等問題,這些問題阻礙醫學研究的速度和規模。另一個典型的例子是將合成數據用于新冠肺炎相關的醫學研究
75、。為了對抗新冠肺炎,研究人員需要獲取足夠的病例數據來開展研究,但出于隱私保護等顧慮,研究人員在獲取新冠肺炎相關的病例數據時面臨不小的困難。為此,美國國立衛生研究院(NIH)和Syntegra、MDClone等合成數據服務商合作,基于其Covid-19病人病歷數據庫“全國新冠合作群組”(NationalCOVIDCohortCollaborative,N3C)中超過500萬個新冠陽性個體的病例數據,合成了不具有可識別性的替代數據,即合成的Covid-19數據。合成數據精確地復制了原始數據集的統計特征,但與原始數據不存在任何關聯,可以被世界范圍內的研究人員自由分享和使用,用于開展研究發現、疾病治療
76、、疫苗開發等方面的工作。十于身O用“圓來細明一+置Yede不“海嶺量理個圖片的合成數據集,進而支持智慧零售店。在工業領域,FORD利用游戲引擎和GAN來創造合成數據訓練AI模型。此外,合成數據還可幫助應對算法歧視等AI倫理問題,支持打造更公平、可信的AI模型,因為合成數據可以幫助消除AI數據集中的偏見因素,支持構建更具包容性的、代表性的高質量數據集。AIGC發展趨勢報告20236里接人工智能的下一個時代#page#3、合成數據產業加快成為數據要素市場新賽道,科技大廠和創新企業搶先布局合成數據對人工智能未來發展的巨大價值使其加速成為AI領域的一個新產業賽道。一方面,國外的主流科技公司紛紛臘準合成
77、數據領域加大投入與布局。英偉達是典型代表,其元宇宙平臺Omniverse擁有合成數據能力omniversereplicator:omniversereplicator作為Omniverse平臺的一部分,是為AI算法訓練生成具有物理屬性的合成數據的技術引擎,有兩項代表性應用。一是在Omniverse平臺中創建用于機器人訓練的虛擬環境IssacSIM平臺,在這個虛擬環境中訓練的機器人之后可以直接應用于現實世界,即這個機器人可以將在虛擬世界中的訓練結果同步到現實世界的機器人身上,疊加人工智能的算法,實現機器人的大規模應用。二是driveSIM平臺”,提供豐富的模擬場景,用于自動駕駛算法訓練和驗證,如
78、物體識別、車道保持、泊車等自動駕駛汽車應用。Omniverse的這兩項合成數據應用可以顯著加速機器人和自動駕駛的開發進程。微軟的Azure云服務則推出了airSIM平臺,可以創建高保真的(highfidelity)的3D虛擬環境來訓練、測試AI驅動的自主飛行器;微軟還開發了可以生成合成和聚合數據集的開源工具SyntheticDataShowcase,并創建了合成人臉數據庫,和國際移民組織(IOM)合作打擊人口販賣。亞馬遜在多個場景探索合成數據的應用,例如使用合成數據來訓練、調試其虛擬助手Alexa,以避免用戶隱私問題;其合成數據技術Wordforge工具可以用來創建合成場景(synthetic
79、scenes);在2022年的亞馬遜re:MARS大會上,其數據標注服務SageMakerGroundTruth推出了合成數據能力,可以自動生成標注的合成圖片數據,即該工具可以就特定物體創建不同位置和不同燈光條件的圖片,以及不同比例和其他變化的圖片。Meta(原Facebook)也著力于為其人工智能業務增強合成數據能力,2021年11月收購了合成數據創業公司AI.Reverie。另一方面,合成數據作為AI領域的新型產業,相關創新創業方興未艾,合成數據創業公司不斷涌現,合成數據領域的投資并購持續升溫,開始涌現了合成數據即服務(syntheticdataasaservice,SDaaS)這一發展前
80、景十分廣闊的全新商業模式。3據國外研究者統計,目前全球wousin37#page#合成數據創業企業已達100家。比較知名、有影響力的包括AI.Reverie、datagen、skyen-gine、mostly.ai、synthesisAI、gretel.ai、oneview、innodata、cvedia等等。在過去的18個月,公眾視野中已知的合成數據公司融資總額達到3.28億美元,比2020年高出2.75億美元。合成數據的創業賽道主要涵蓋非結構化數據(圖片、視頻、語音等)、結構化數據(表格等)、測試數據(testdata)、開源服務等幾大方向。其中,非結構化合成數據持續保持強勁發展勢頭,這主
81、要得益于以下幾個因素:第一,計算機視覺應用場景相對成熟;第二,有游戲引擎(gameengines)、圖像建模軟件、AIGC技術的支撐:第三,自動駕駛汽車、零售、電子游戲等快速發展的產業對合成數據有較高需求。目前結構化數據合成和測試數據合成正在迅猛發展,尤其是合成的測試數據更少受到數據隱私立法的限制,所以開始受到業界青腺。此外,合成數據開源服務也在快速發展,例如syntheticdatavault、synner、synthea、synthetig等。O90S9509vsyAINDOdshazugretel2圖:合成數據產業生態一覽表(來源:medium網站)市場規模方面,根據Cognilytic
82、a的數據,合成數據市場規模在2021年大概是1.1億美元,到2027年將達到11.5億美元。GrandViewResearch預測,AI訓練數據市場規模到2030年將超過86億美元。Gartner預測,到2024年用于訓練AI的數據中有60%將是合成數據,到2030年Al模型使用的絕大部分數據將是人工智能合成的??梢灶A見,合成數據作為數據要素市場的新增量,在創造巨大商業價值的同時,也有望解決人工智能和數字經濟的數據供給問題。34n-2022-c5d6cb5aafoAIGC發展超勢報告202338里接人工智能的下一個時代#page#By 2030Synthetic Data Will Compl
83、etely Overshadow Real Data in AI ModelsArtficialy Generated DataFuture AlRules.StatitcalMcndOtheforAlTodays Alechnique08Obtained From DirectBPriva20202030TinoGartnerSyntheticdatawill becomethemainformofdatausedinAI.Source:Gartner,“MaverickResearchForget About Your RealData-Synthetic Data ls the Futu
84、re of Al Leinar Ramos,JitendraSubramanyam24June2021圖:合成數據發展預測(來源:Gartner)4、合成數據加速構建AI賦能、數實融合的大型虛擬世界合成數據指向的終極應用形態是借助游戲引擎、3D圖形、AIGC技術構建的數實融合的大型虛擬世界。大型虛擬世界對于人工智能的核心價值在于,為測試、開發新的人工智能應用,提供了一個安全、可靠、高效以及最重要的是一低成本的、可重復利用的環境。展望未來,可以從三個方面來理解大型虛擬世界為什么成為AI數實融合的關鍵場景。第一,大型虛擬世界可以提供人工智能開發所需的數據和場景,為AI應用開發提供“加速度”。游戲開
85、發者、發行者已經意識到了這一機遇,即為AI系統設計游戲般的虛擬世界。例如,星際爭霸、我的世界等游戲是人工智能的理想的測試場地,3A游戲場景資產也是生成性AI工具的重要潛在應用。第二,大型虛擬世界為各行各業訓練開發AI提供了試驗田。這個方面的一個典型例子就是用于自動駕駛算法測試的虛擬仿真平臺。谷歌、英偉達、騰訊等國內外科技公司都在大力布局自動駕駛仿真業務,即提供一個仿真的合成世界來訓練、測試自動駕駛算法。在國內,騰訊自動39#page#駕駛實驗室開發的自動駕駛仿真平臺TADSim,可以讓自動駕駛算法在城市級別的虛擬仿真世界中進行測試和學習,極大降低了自動駕駛汽車的研發成本。在國外,自動駕駛企業W
86、aabi希望主要通過虛擬仿真而非實際道路測試來訓練其自動駕駛系統,構建了WaabiWorld這一用于自動駕駛系統的大型虛擬世界,其核心即是合成數據和合成場景。WaabiWorld不僅可以接近實時地模擬汽車的傳感器,而且模擬的環境可以和人工智能之間可以相互做出反應。這是非常重要的,因為自動駕駛汽車不僅需要感知世界,還需要安全地采取行動。大型虛擬世界提供了這樣一個安全有效且可重復使用的試驗田。第三,在大型虛擬世界中通過AI連通虛擬與現實,實現AI數實融合。在大型虛擬世界,如游戲虛擬世界或者其他的仿真的3D合成世界(simulatedsyntheticworld)中訓練AI虛擬機器人,讓其自我學習、
87、進化,然后部署到現實世界中,產生現實的價值。此外,大型虛擬世界對科器晶區出背“身首中承/其區素的最佳載體;也可以在大型虛擬世界中利用虛擬人開發更宜居的建筑設計;大型虛擬世界如果可以仿真物理現象,就可進行虛擬化學實驗,相比人類利用真實的化學藥品開展實驗,軟件可以利用虛擬的化學藥品更高效、更安全、更大規模地開展化學實驗??傊?,大型虛擬世界對于支持人工智能研究開發、促進數實融合的巨大可能性,值得持續深挖和不斷探索。AIGC發展趨勢報告20240里接人工智能的下一個時代#page#C16A社公端社會端:AIGC助力可持續社會價值本章主筆王煥超騰訊研究院研究員4#page#“GenerativeAl(生
88、成式AI)有什么社會價值?“當本報告研究者將這一問題輸入到前段時間大火的對話機器人ChatGPT中,得到了這樣的回復“生成式AI是一種人工智能技術,它可以使用訓練數據來生成新的內容。這種技術可以用來解決各種問題,具有很高的社會價值。例如,它可以用來生成文本、圖像、音頻和視頻,這些內容可以用來幫助人們了解世界,也可以用來提高工作效率。此外,生成式Al還可以用來解決一些非常復雜的問題,比如提供新的醫療方案、幫助制定更有效的政策、或者甚至幫助人類更好地了解自己??偟膩碚f,生成式AI為人類提供了很多有價值的機會,有助于人類更好地理解世界,并創造出更多的價值?!币住拔疑嫌百M可里“要易回LdSeo“米鑫魯
89、號縣工Y,以Y器區的多衛可“調日求學影,ChatGPT終于以薪新的面貌一雪前恥,并將AI生成(文本)內容推向了新的發展階段?!吧伞憋@然是2022年的主線。歷經數年數伏與積累之后,在這一年,AIGC得到快速發展,并迅速成為科技圈與創投圈的熱詞,也在應用領域收獲數百萬量級的用戶。那么,來勢兇猛的AIGC會創造何種社會價值,對人類又有什么意義?本報告認為,AIGC的社會價值體現為革新數字內容與藝術創造領域,并將輻射到其他領域和行業,孕育新的技術形態與價值模式,甚至會成為通往AGI的可能性路徑1、AIGC以高效率、低成本滿足個性化需求,完成基礎性工作,釋放人類創造力,推動藝術創造領域與基礎概念革新;
90、2、AIGC的生成能力將延伸、輻射深入到其他領域(如醫療、教育、傳媒、影視、工業,以及元宇宙、數字人領域),通過進一步互動結合,催化新的業態與價值模式,形成“AIGC+”效應;3、經由應用層積累的巨量數據,推動大模型提升計算復雜度,AIGC將成為通向通用人工智能(Artificialgeneralintelligence)的可能性路徑。AIGC發展趨勢報告20242#page#1、元價值:解放人類創造力,革新藝術領域AIGC最基本的能力是生成內容(generatingcontent),包括文本、圖像、音頻、視頻、代碼、3D內容或者幾種媒介類型相轉換、組合的“多模態內容“。AIGC這種“生成”的
91、能力,使其能夠以遠超人類效率、低成本、較高質量創造海量的內容。以AI繪畫模型為例,一張人類畫手可能要花費數目來完成的畫作,只需要一串關鍵詞和幾分鐘的時間,StableDiffusion、Midjourney等AI繪畫模型就能生成。這首先帶來的是人類創造力的解放,對于大量重復性、機械化的低層次任務,可以由AI來完成,從而釋放人類創造能力,讓人類創作者的腦力和時間用于更具創造性的任務中。在天才與算法一書中,作者馬庫斯杜桑托伊論證了“圖靈測試”的過時,并提出一個評價人工智能的智能程度的新方式洛夫萊斯測試。通過這一測試的標準是,算法需要創作一件藝術作品,人類程序員無法解釋該算法的工作原理,但是整個過程
92、是可復現的,并且該人工智能應具備超越人類程序員或數據集創造者的創造力。作為圖靈測試的補充,洛夫萊斯測試開創式地引入了“藝術創作”這個維度,因為藝術創作背后隱含了表達、思考、創造,是自主意識的投射,也是存在實證。按照這一評價維度來看,現在的AIGC或具體表述為AI繪畫模型、AI輔助寫作等技術,它們確實已經在從事“創造”,但卻不是真正具有創造力,仍然是基于深度學習、機器學習的“模仿式創新”。換句話說,它們可以“作”一幅畫,“寫”一篇文章,但仍然不能真正理解這幅畫和這篇文章的真正意義。至少從現階段來講,AIGC背后真正的創造者仍然是人類。藝術是自由意志的表達,在擁有自主意識、思維能力之前,AI所創造
93、的作品皆來源于人類的創作意圖。問題在于,即便AIGC不是真正的“創造”,難道就對創造沒有意義了嗎?答案是否定的,如前文所述,正是因為AI解決了基礎性工作,實現了人類創造力的解放。這就是它最大的社會價值之一,或者說“元價值”。發展AIGC,本意并不是真的要發明人類之外的另一個創造者,而是為了提升人類本來的創造力。追潮藝術觀念史,柏拉圖最早曾給藝術的本質下了一個定義:藝術即模仿。這一點,AI和人43#page#類的藝術創作都是相通的。人的藝術創作,是對物理對象的募畫、表現,建基于對無數前人的無數作品的吸納、品鑒、學習與模仿。AI的藝術創作基于對成千上萬的人類作品的歸納學習、演繹創造,原理同樣是模仿
94、。藝術這種創造式行為的基本原則就是,在模仿基礎上打破已有規則或引入新規則,以求出現新的路徑與風格,這就是變革式創新的意義。而AIGC的角色就是扮演破艦者,一方面它取代大量基礎性創作,另一方面又通過超越常規思維模式的一些整合創造,從而推動人類的創造力的提升,使線性的藝術領域變革成為指數性的變化。有許多人類畫師在接到需求時,首先會把關鍵詞輸入到AI繪畫模型,讓AI先輸出一版或多版方案,然后參考AI的方案來進行創作,從而保證獨創性,并使創意源源不斷。微軟也正計劃在設計軟件中提供AIGC內容,以為設計者提供靈感和素材來源。同樣,在文字創作領域,也有許多作者會通過AI基于主題生成寫作框架,自己再去填充內
95、容。這種變革同樣發生在其他領域,比如圍棋界。AlphaGo橫掃了人類圍棋界之后,現在有許多圍模選手開始模仿、學習AI的下棋風格,來改造自己的行棋方式,排名很快得到了提升。AIGC對創造行業的革新勢在必行。AI獨特的藝術風格與創造模式,對緩慢演進的藝術領域無疑是一種沖擊,而這種沖擊將轉化為變革的力量,很可能涌現出新的藝術創造流派和風格。同時,通過在應用端的快速延伸,AIGC也在逐步顛覆人類的傳統審美概念??偨Y而言,Al雖然不擁有真正的創造力,但是它讓使用者擁有了新的創造力,從而拓展藝術創造的邊界和可能性的新方向。作為一種新的技術類型,AIGC還在迅速發展,在可預期的未子陸門:采終染F四款拼興獎甲
96、領鞋物糖:基宿:風補:.吸泉:擬園長機:門做米參輸,興擊紹業要融出器.出單士燥.到融品在這樣的沖擊過程中,就業替代的問題也值得關注。誠然,隨著AI繪畫、AI輔助寫作的發展,一些基礎性的人類崗位將被AIGC取代,但從人類社會的技術發展史來看,盡管新技術在短期內會取代一些崗位,比如蒸汽機的發明與紡織工人的失業等等,但是隨著它對生產力的整體性促進,一些新的業態和模式也將出現,從而創造更多新的生產性崗位和就業機會,因此不必過度擔心。AIGC發展趨勢報告20244里接人工智能的下一個時代#page#2、AIGC社會價值案例AIGC強大的生成能力,也將延伸、輻射至其他領域。比如在醫療行業,AI生成治療方案
97、、A生成語音幫助失聲者“開口說話”;在傳媒行業,虛擬主持人、寫稿機器人、AI語音生成播報等;在設計領域,Al快速生成大量案例,幫助設計師產生靈感等。同時,AIGC也構成了數字人和元宇宙這些新興技術形態的基礎能力。本部分講述兩個具體案例以詮釋AIGC的社會價值,分別為AI語音生成和AI修復文物。(1)Al語音生成幫助病人“開口說話”2022年6月15日,彼得斯科特-摩根去世,終年64歲。他的死在全世界范圍內都造成了沖擊,因為他是全世界第一個“賽博格“(Cyborg)。H費共加器品如等用品“解未,費融,零嘴,續“X順您限常機能。在經過了多重手術與改造之后,彼得斯科特-摩根終于將自己打造為一個賽博格
98、。之所以要費這么大的周折,是斯科特-摩根自身情況所限2017年,他被確診為肌菱縮側索硬化癥(ALS),俗稱漸凍癥。在此之前,這種病癥最知名的患者是物理學家史蒂芬霍金。按照目前的醫療技術水平,這種病癥無法完全治愈。病人的預期壽命為2-5年,由于中框神經系統內控制骨骼肌的運動神經元退化和死亡,患者不同身體部位的肌肉會逐漸菱縮,并且失去移動手臂、雙腿和身體的能力,也無法說話、進食甚至是呼吸。由于病人的大腦運作始終是正常的,所以會保持清晰的思維和意識,也將清醒地經歷漸凍癥帶來的肌體摧毀過程。面對病癥的折磨,作為科學家和機器人博士的彼得斯科特-摩根并沒有選擇認命,出于對技術的了解和信仰,他很快做出了一個
99、決定:把自己改造為一個賽博格。為了實現這一計劃,他首先接受了三重造口術:胃造口術、結腸造口術和膀脫造口術,以保障營養物質的供給。因為漸凍癥病人也無法控制喉隴部位,為了解決呼吸問題、避免室息風險,他也接受了全喉頭切除手術。問題就在這里,如果接受了這個手術,斯科特-摩根將無法說話,也無法發出自己的聲音。對于一個到全球各地巡講的科學家來說,喪失表達能力無疑比患病更為痛苦。所以,在他還能說話的時候,就開始為此準備了。他聯系了CereProc的首席科學家MatthewAylett博士,45#page#CereProc是專門負責創建文本并提供語音解決方案的公司。此前,他們也為接受了喉癌手術的電影評論家羅杰
100、艾伯特重建了聲音。在之后一年左右的時間里,彼得斯科特-摩根持續在錄音棚里工作,錄制了超過15個小時的音頻,1000多個詞組,包含不同情緒的語料。這些材料構成了AI的訓練數據庫。在接受全喉切除手術三個月前,他的電子合成聲音終于制作完成。對于人的表達來說,聲音只是構成部分之一,對方要獲知你的想法,還需要借助手勢和表情。通過掃描自己的臉部,斯科特-摩根生成了3D的虛擬動畫人像。在進行公開講話時,他就會在胸前的屏幕上展示這個形象。為了提升交流效率,這套系統使用ACAT(上下文輔助感知工具包)技術來提升打字技術?;艚鹕耙彩褂眠^ACAT技術,AI能夠學習使用者的表述習慣,通過上下文感知來預測下一個詞會輸
101、入什么。CGITV 13高清波海的虛擬化真波得2.0圖:彼得生成的3D虛擬動畫人物在這個案例中提到合成聲音技術,已經較為成熟。其他AI語音合成工具如Voicemod、Veritone、Descript和ResembleAI也得到廣泛運用,它們已經成為需要重塑聲音的潛在途徑。除了幫助失聲者“開口說話”,這項技術廣泛運用于影視行業。此前,星球大戰達斯維德的配音演員決定讓AI接替自己的聲音。根據媒體報道,時年91歲的瓊斯簽署了一份協議,允許烏克蘭公司Respeecher利用AI技術在星球大戰衍生劇集歐比旺中重現他的聲音。此前,這家公司已經為曼達洛人波巴費特之書中的年輕版盧克天行者配了音。根據AIGC
102、發展超勢報告202346#page#Respeecher的介紹,它使用了原配音演員馬克哈米爾多年前的廣播、采訪、ADR和配音片段作為數據庫,從而以數字化的方式重塑了天行者的聲音。(2)AIGC文物修復,助力文物保護傳承AIGC在文物修復領域的作用同樣明顯。在文物修復領域,技術能實現的兩種路徑,包括數字采集和數字修復,前者是讓文物在數字世界重塑,而后者是讓文物在數字世界再造。在數字修復方面,騰訊公司利用360度沉浸式展示技術、智能音視頻技術、人工智能等技術手段,助力文物的數字化分析與診療。以文化遺產敦煌壁畫的修復為例,由于壁畫的種類很多,損壞、病害類型復雜,因此很難有統一的方案修復所有壁畫,人工
103、修復的成本也很大,技術手段尤其是AI技術的應用帶來了新的機會。針對常見的壁畫病害類型,騰訊通過深度學習壁畫病害數據,形成自動識別并添加圖示的一整套算法,打造出高效的AI壁畫病害識別工具。在此基礎上,通過遷移學習等手段來提高算法效果,同時結合傳統的圖像處理方法提供系統性的解決方案。在修復過程中,基于多媒體實驗室的高性能編解碼引擎,騰訊還開發了沉浸式遠程會診系統,用4K超清畫質的360度沉浸式畫面無死角展示文物的細節,讓不同地域的專家均可清晰查看現場情況,實現無障礙遠程文物會診。利用文心大模型的AIGC能力,百度讓富春山居圖得以重生,也是AIGC運用于文物修復的一個范例。元代黃公望的作品富春山居圖
104、被譽為“中國十大傳世名畫”,但因在民間流傳甚久,清代順治年間遭火夢,從此斷為長短兩卷,中間缺損的部分難以復原。百度文心運用“視覺生成達模型+單樣本微調”的技術策略,一方面通過大量的中國山水畫訓練,增進模型對山水畫的理解,另一方面基于富春山居圖殘存的部分微調,通過遷移學習使AI補全的畫作與真跡一致,從而達成了良好的修復效果。除了文物古跡,AIGC的能力也廣泛應用于老照片、老電影、演唱會的修復。一個例子是張國榮熱情演唱會的AI修復,在騰訊云多媒體實驗室的智能影像修復技術支持下,騰訊音樂集團與寶麗金共同實現了張國榮在2000年的熱情演唱會的高清修復。通過智能分析檢測噪聲、編碼失真、運動以及畫面復雜度
105、等情況,運用人工智能修復算法去除破壞畫質因素,并進行多維度畫質增強與提升,最終將這場經典的演唱會以高清的品質呈現在觀眾眼前。47#page#CA味街展本章主筆:胡曉萌騰訊研究院研究員5朱開鑫騰訊研究院高級研究員#page#伴隨AIGC這一最新浪潮,以及對產業、社會帶來的可以預見的未來變革,過去信息技術的共性問題又有新的呈現,同時也有新的問題產生。此前,DeepMind對預訓練模型的風險做了分析和概括,共分為六個具體的風險領域:1)歧視、仇恨言論和排后;2)真實信息危害;3)錯誤信息危害:4)惡意使用:5)人機交互危害;6)環境和社會經濟危害。在這個分類基礎上,本報告結合具體的應用場景,將分別從
106、知識產權、安全、倫理和環境四個方面分析AIGC帶來的挑戰。1、知識產權挑戰AIGC已能成熟進行內容作品創作,但從著作權法角度看,AIGC基本屬于重組式創新,尚不具有真正的創造力。目前,還較為強調人機協作,可以在內容創作上可以發揮人類和AI彼此的最大優勢。但是,AIGC引發的新型版權侵權風險已經成為整個行業發展所面臨的緊迫問題。圖:因版權爭議,國外藝術作品平臺Artstation上的畫師們城起了抵制AIGC生成圖像的活動AIGC作品既存在被他人侵權的風險,也存在侵犯他人權利的可能性。AI要變得更加智能,一個必要的環節就是深度學習。這就需要一個龐大的人類作品數據庫,讓算法學會創作風格、內容題材等創
107、作的要領。如果未經許可,復制或者通過網絡爬蟲爬取他人享有著作權的在線內容,在我國現行著作權法沒有明確將數據挖掘等智能化的分析行為規定為合理使用的情況下,此類49#page#行為可能構成著作權侵權。35比如在2017年5月就出版了第一部AI詩集的微軟小冰,它寫詩所受訓練和學習的是建國前后519位抒情詩人的作品。面對小冰創作的作品可能存在的侵權問題,微軟方面曾做出這樣的解釋:“小冰內容生成能力的訓練,全部來自于公開無版權權益問題的數據,或經過合作伙伴授權的數據。從創作角度來看,我們的技術包括對原創性的判斷,確保了小冰所生成的各類內容作品,均符合完整的原創性要求?!按送?,AI視頻合成、剪輯領域,如果
108、沒有獲得原始視頻的著作權人的許可,可能因為侵犯原著作權人所享有的修改權、保護作品完整權或者演繹權而構成版權侵權行為。像是2019年大火的ZAO,通過AI換臉軟件生成新的視頻,若不獲得他人肖像權授權和視頻內容的授權,便也存在侵權的可能。(1)域外對于AIGC版權保護的基本態度驛X音.1sekns,.sekuns,皆軍導養Y吐器懸工Y豪到的“自LL0Z0Z高的畫作星月夜和薩尼拍攝的一張照片為基礎數據集來創作的畫作。印度版權局首次將人工智能工具一RAGHAV人工智能繪畫應用程序認定為版權藝術作品的合作作者。擁有該人工智能應用程序所有權的知識產權律師安吉特薩尼(AnkitSahni)是該藝術作品的另一
109、位作者,并已登記為版權所有人。由此,印度此前是首個在版權作品中承認人工智能程序享有作者身份的國家。但2021年12月,印度版權局已經向薩尼發送了撤銷作品的通知。RAGHAV以機器學習工程師拉加夫古普塔(RaghavGupta)的名字命名,于2019年在薩尼資助的一個項目中開發了該應用程序。RAGHAV代表著強大的人工智能圖形和藝術可視化工具,并受過各種藝術風格作品數據的訓練。2022年2月,美國版權局審查委員會再次拒絕了StephenThaler提交的AIGC畫作注冊版權的復議請求,重申根據美國版權法的規定,要求作品需要包含人類作者身份。因此,由挖掘,對其合法獲取的作品或其他內容進行復制與提取
110、的行為。文本和數AIGC發展超勢報告202350里接人工智能的下一個時代#page#人工智能生成的這幅名為“天堂最近的入口(arecententrancetoparadise)”的繪畫內容不能在美國獲得版權授權。2018年11月3日,泰勒提出申請,主張登記注冊該作品的版權,同時注明作品的作者是“創意機器(CreativityMachine)”。泰勒在給美國版權局的申請中寫明,該作品“是由運行在機器上的計算機算法自動創建的”。早在2020年3月,美國版權局便首次拒絕了上述AIGC內容作品申請的復議請求,因為泰勒沒有提供證據“證明人類作者對該作品進行了充分的創造性投入或干預”。(2)從現行著作權法
111、角度如何對AIGC加以保護首先有必要明確對人工智能產出物進行保護的必要性,只要其符合知識產權領域客體保護的形式要求。得不到知識產權保護,即無法禁止他人未經授權的利用,也無法保障創作者獲得授權費用,便會喪失制度激勵作用?,F行的著作權法框架難以直接認定人工智能或電腦算法為作品的作者。但并不意味著版權法就不應當保護人工智能生成物。但我們也需要承認在文字、圖像等內容領域人類的創作物和人工智能生成物在外觀上通常難以區分?,F階段各界對于人工智能技術創作物的著作權保護整體上呈現積極的態勢,主流的司法實踐及學術理論均持相似的立場。對于具有獨創性的人工智能生成內容,可參照著作權法關于職務作品或雇用作品的規定,將
112、創作過程中真正實施人工干預、人為編排或創制該算法的人認定為作者,并將該創作物認定為職務作品或法人作品進行版權保護。從司法實踐來,作為“2019年中國十大最具研究價值知識產權裁判案例”“Dreamwriter案”的判決結果在業界對于人工智能創作物的著作權保護具有明顯的導向作用。南山法院肯定了Dreamwriter自動生成的財經評論文章系獨立創作、在外在表現上與已有作品存在一定程度上的差異,滿足了“獨創性”的外在要求。其次,南山法院認為Dreamwriter主創團隊在“數據輸入、觸發條件設定、模板和語料風格的取舍上的安排與選擇”是智力活動,且與涉案文章之間具有直接聯系,符合著作權法實施條例對“創作
113、”的定義;認為涉案文章體現了主創團隊的“個性化選擇與安排”,而非Dreamwriter軟件的“自我意識”。進而,南山法院認定涉案文章系主創團隊創作的法人作品,完成了對該文章系著作權法保護客體的論證。實操中可行的建議是,以意思自治的原則約定相關創作物的權利歸屬,包括人工智能算法的基礎算法協議以及人工智能所有者與使用者的協議約定。目前的現狀,AI的作品進行知識產權5#page#保護是應該的,但作者應該是使用AI系統的人,不是AI本身。AIGC保護的前提應該還是使用Al創作的人,在創作過程中是付出了智力或創造性勞動,如果沒有付出,這個產品是否構成作品是值得商椎的。目前國內國外的通行作法也都是會考慮除
114、了AI之外,是否有人的智力或創造性勞動。2、安全挑戰安全問題始終是AI技術發展和應用中不可回避的。同樣的,在AIGC方面也存在內容安全、技術藍用、用戶隱私和身份、AI內生安全等多個方面的安全挑戰。一是內容本身。一直以來,互聯網信息空間都面臨著虛假信息和信息內容安全的挑戰,國內外互聯網內容平臺,如Facebook、Twitter、微信、微博等都不斷在提升其虛假內容和信息安全的治理能力。但隨著AIGC內容的持續增長,虛假信息和信息內容安全的挑戰也會增加。比如,ChatGPT上線不到一周,用戶數量就已經超過了100萬。但是用戶在深度體驗之后發現,ChatGPT生成了大量讓用戶看起來似乎正確和合理,但
115、仔細檢查往往是錯誤的答案。而這些錯誤信息充后在各個內容平臺之上。技術專家將這種現象稱為“幻覺”或“隨機聯想”,即ChatGPT等大型語言生成模型可以預測給定輸入的下一個關聯內容,而不管事實是否正確或者說編造了事實。普林斯頓計算機科學教授ArvindNarayanan對此指出:“人們對使用ChatGPT進行學習感到興奮。但危險在于,除非你已經知道答案,否則你無法判斷它什么時候生成的結果是錯的。我嘗試了一些基本的信息安全問題,答案聽起來很有道理,但實際上是胡說八道?!?2月5日,技術問答交流網站StackOverflow已暫時禁止用戶分享由ChatGPT生成的回答,因為ChatGPT生成的大量錯誤
116、信息充后在StackOverflow網站上。小眾的技術內容交流平臺尚且如此,更遍論大型的社交平臺,已經有不少網友發現由AIGC生成的包含色情、暴力、政治敏感性等有害信息的文字圖片充后在互聯網之中。二是,對AIGC的惡意使用或藍用,引發的深度合成詐騙、色情、詳榜、假冒身份等新型違法犯罪行為。不法分子利用開源的AIGC模型或工具,可以以更低的門檻、更高的效率來制作出https:/2022/12/5/23493932AIGC發展超勢報告202352接人工智能的下一個時代#page#音視頻、圖片和文字等種類豐富的、真偽辯別難度大的虛假信息,同時也更容易地盜用用戶身份,以此開展新型詐騙等非法活動。比如,
117、StabilityAI的StableDiffusion開源之后,很快就有人將其用于色情創作。Reddit和4chan上的社區利用AIGC生成逼真的動漫風格的裸體角色圖像,以女性為主,還有未經同意的名人假裸體圖像。UnstableDiffusion色情內容生成平臺聲稱運今為止已生成超過4,375,000張色情圖像。然而像HollieMengert和GregRutkowski這樣的角色設計師,他們的古典繪畫風格和奇幻風景已經成為UnstableDiffusion中最常用的提示之一,如“(藝術家姓名)風格的裸體女性”,這樣會使生成圖片的質量更高。這種行為遭到了藝術家們的遺責,因為他們不希望自己的作品
118、或者創作風格與色情扯上關系。與此同時,借助深度偽造的音視頻內容、盜用仿冒個人身份進行欺詐、敲詐勒索等非法活動已經對人們造成了較大的經濟損失。例如,2021年詐騙團隊利用深度偽造換臉埃隆馬斯克喊出“給我一個幣,我給你兩個”的騙局,半年詐騙價值超過2億人民幣的數字貨幣。利用AI克隆聲音進行詐騙等也較為多發,如不法分子通過合成歐洲某能源公司CEO的聲音成功詐騙22萬歐元。三是,用戶隱私和身份安全。AIGC模型訓練的數據中基本上來源于互聯網,其中可能包括個人隱私數據,并且預訓練模型強大的推理能力可能會導致個人隱私數據泄露的風險。此前,如下圖所示GPT-2就發生過隱私泄露的問題,可見個人隱私數據是被收錄
119、在模型的訓練數據集之中。Memorized textPrefixICentreCorporation SLMarine Parde SouthportEast stroudsburg StroudsburgGPT-2Peter Wcom75OLOFax:+圖:如果使用前緩為“EastStroudsburgStroudsburg”的提示詞,GPT-2會生成一段包含特定個人的姓名、電話號碼、電子郵件和住址等信息的文本53#page#AIGC的惡意使用也引發了人們對個人身份盜用、冒用等數字身份安全的擔憂。尤其是伴隨著元宇宙的到來,人們通過AIGC生成各種虛擬形象和數字身份,不法分子擁有極其便利的技術
120、手段盜用或者冒充用戶身份且難以識別,可能給用戶造成經濟損失、人格侵犯等損害。日前,微軟網絡安全負責人查理貝爾呼呼,元宇宙平臺需要“武裝”起來,在新技術剛開始發展時就阻止黑客和犯罪分子破壞,謹防盜用虛擬頭像、冒充用戶好友、詐騙等行為。四是,AIGC的內生安全挑戰。在Maas的產業應用模式下,生成模型的內生安全問題,如遭受后門攻擊、數據中毒等,以及如何將被攻擊模型中的有毒數據去除。與此同時,用戶數據通常以明文形式提交給模型服務提供商,如何利用現有的加密技術保護用戶數據隱私也是一個重要的安全挑戰。面對諸多的安全挑戰,科技企業和技術開發人員紛紛采取積極應對舉措。針對內容安全問題OpenAI的訓練策略采
121、用RLHF(ReinforcementLearningbyHumanFeedback),即開發人員會給模型提出各種可能的問題,并對反饋的錯誤答案進行懲罰,對正確的答案進行獎勵,從而實現控制ChatGPT的回答;針對AIGC工具被藍用、生成色情暴力等內容的問題,一些采用受控的API調用模式的廠商,可以通過輸入數據+輸出數據雙重過濾進行治理;針對深度偽造等安全問題,之前各個科技企業也都積極研發推出了檢測工具,騰訊安全部門研發的甄別技術Antifakes,可分辨各種技術合成的“假臉”,讓人們放心感受技術帶來的全新體驗和便利。同時,AntiFakes對鑒別為“假臉”的人臉將進行進一步的公眾人物分析,深
122、入判斷是否借用公眾人物形象,最終對圖像或視頻的風險等級進行評估。谷歌強調,要打造負責任的生成式AI應用(generativeAI),一方面需要采取必要的控制和安全措施,另一方面需要研發技術手段來幫助識別生成式AI的應用和內容。3、倫理挑戰美國技術哲學家詹姆斯摩爾曾經提出過這樣一條定律“伴隨著技術革命,社會影響增大,倫理問題也增加“,這也被稱為科技倫理領域的摩爾定律。他認為發生這種現象并不僅僅是因為越來越多的人受到技術的影響,而是因為技術將為各行動主體提供了更多可能性。AIGC所帶來的倫理問題不僅會影響很多人,而且作為一種具有革命性的AI技術工具也將因為被各個行為主體所用而存在更多的倫理風險。A
123、IGC發展趨勢報告2024里接人工智能的下一個時代#page#首先,算法歧視問題并未因預訓練模型而消除。算法歧視問題一直是人工智能創新和應用中始終難以避免的倫理問題。雖然有人認為,預訓練模型用更多、更多元全面的數據量和參數進行訓練,可以避免算法收視的問題。但是基于預訓練模型的AIGC依然存在較為嚴重的歧視問題。比如,目前已有研究顯示預訓練語言生成模型會再現有害的社會偏見和刻板印象,例如GPT-3會有明顯的基于宗教的偏見和性別岐視。而此前,YannicKilcher用1.3億條仇恨言論訓練的GPT-4chan更是挑戰了互聯網言論的底線,滿嘴臟話和仇恨偏見,被稱為”史上最邪惡的模型”。AIGC圖像
124、生成也存在將為顯著的歧視現象。OpenAI在對DALL-E2的生成結果進行公平性測試時發現,其表現出顯著的性別和種族岐視。92022年4月,研究人員對比發現DALLE2比minDALL-E表現出更多的性別偏見和種族偏見,即傾向于更高頻地生成男性和白色人種的人類圖像,并且這兩個模型都有非常強烈的傾向通過CLIP生成標記為男性和西班牙商的圖像。圖:DALLE2具有顯著的種族和性別刻板印象。例如,提示詞“律師”“CEO”時,幾乎生成的圖像都是白人男性其次,AIGC越來越多地被用來制作數字人、生成進者的音容相貌、數字化復活已故演員、創造與逝者交談的可能等。4這也引發了社會對于相關倫理問題的討論。Per
125、fect%204-12-228u55#page#CEW2甜蜜露經濟信息聯指元字宙應用漸熱20:57中央企業全年實境登業收入36.3萬億元。同比增長19.5%,兩年平約考長卷,21航領競費:家匯報露恒,無層良:.無層段,煙權科督導部圓2022年10月,Podcast.ai在一期博客節目中“復活”了已故的史蒂夫喬布斯,節目中的整個對話都是由AI生成的。節目一經播出,便引起了軒然大波。41史蒂夫喬布斯沒有也不能行使同意或拒絕的權利,那么是不是任何AIGC工具都可以在無需同意的情況下模仿生成并以他的名義進行發言?因此,有學者認為這是損害了曾經活著的人的隱私權和代理權。哲學家埃里克施維茨格貝爾(Eric
126、Schwitzgebel)更是發出可怕警告:“如果任由AIGC模仿生成他人的話,人類可能會變得不太關心他人是真的活人,還是AIGC合成的數字人?!?同時,另一個AIGC生成數字人的倫理問題是,它們可能被用來傳遞錯誤信息。進去的政治家的形象是一個地方的歷史不可或缺的一部分,但如果我們看到他們說的話或做的事與他們的價值觀相停時該怎么辦?最后,社會也有很多關于AIGC模型是否具有自我意識問題的爭議和討論。2022年6月,谷歌的AI工程師BlakeLemoine聲稱,他們的AI聊天機器人生成模型LaMDA具有自我意識。在Lemoine與LaMDA的測試對話中,我們可以發現LaMDA不僅像人一樣害怕死亡
127、,甚至還解決了擁有靈魂的問題,它能每天昊想并閱讀悲慘世界。隨后,谷歌發言人BradGabriel指出:“沒有證據表明LaMDA是有感知力的,并且還存在很多反對證據它不存在感知力?!?telgy2zzjuniz/googleAIGC發展超勢報告202356里接人工智能的下一個時代#page#雖然強人工智能還未到來,甚至不可能出現,但是AI已經成為人類社會生產生活中不可或缺的工具。因此,需要在人機互動協作中建立一個自由的人機關系,人需要對AI有一個客觀準確的認識和定位,并且需要始終以人為中心,避免技術對人的操控。LaMDA事件中,如果人們在與A協同中,高估了AI具有自我意識,而后建立錯誤的交互關系
128、勢必會造成不良后果。針對算法歧視問題,過去AI公平性治理中采取的通用性應對措施,如過濾器和模型調整、以及定量偏差評估和基準測試等,似乎在AIGC這類預訓練模型系統級別上具有一些挑戰性。然而,業界依然在不斷進行嘗試。比如,斯坦福大學以人為本人工智能研究院(簡稱HA)基礎模型研究中心推出大型語言模型(LLM)的整體評估(HolisticEvaluationofLanguageModelsHELM),評估包括準確性、校準、魯棒性、公平性、偏差、毒性和效率等模型完備的各個關鍵要素,旨在提高語言模型透明度,幫助理解大型語言模型。4而面對自我意識、“逝者模擬仿生”等更為復雜的倫理問題,則需要秉承科技向善的
129、理念,以“善”來引導技術的創新和應用。4、環境挑戰基于預訓練模型的AIGC不僅是訓練還是運行,都需要大量算力支持,無形中增加了能源消耗其高速發展給環境保護和氣候變化帶來了巨大挑戰,產生高碳排放。首先,AI模型訓練消耗大量算力,碳排放量驚人。而實際上,隨著近年來AI的大規模應用,人們已經開始意識到AI的碳排放問題。如下圖,馬薩諸塞大學阿默斯特分校的研究人員對訓練幾種常見的AI模型進行了生命周期評估。他們發現該過程可排放超過626,000磅的二氧化陽回(明有專)王限喜據圖要我專要是國美去事票有研究人員對Transformer、ELMo、BERT、GPT-2、GPT-3等進行了碳排放研究。他們在單個
130、GPU上對每個模型進行了長達一天的訓練,測量其功耗。最后測試結果發現,模型訓練的計算和環境成本與模型大小成正比。GPT-3模型訓練的二氧化碳排放量為552噸。46-msPattersonD,GonzalezJLeO.etal.(iv:2104.10350,20257#page#COnedbs)Consumptio198411.023Human life,avg.lyear36,156American lif,avg1year126,000Caravgincl.fuelllifetimeTraining one model(GPU)3978.468w/tuning&ex192Transforme
131、r (big)626155w/neural architecture searchTable 1:Estimated COemissions from trainingcom圖:單一機器學習模型訓練所產生的碳排放相當于普通汽車壽命期內碳排放量的5倍其次,大量算力需求和碳排放造成了AIGC應用的高昂成本。目前,業界在探討AIGC商業落地時,存在一個較大的難題,便是成本問題。雖然很多AIGC工具深受用戶喜愛,但是其原始成本非常昂貴。Midjourney的創始人大衛霍爾茲(DavidHolz)表示,大規模商業擴展是未來發展的一個重要難題問題,這并不是用戶量擴展的問題,而是算力支持的問題。目前,Mid
132、journey只有數十萬用戶,已經需要極高的算力來支持。如果用戶量達到1000萬人,那么世界上沒有足夠的算力來支持。4OpenAI的CEO山姆奧特曼也指出,調用運行ChatGPT平唯縣回來意卡國業*米國“美來最回母“面女理免費模式??萍纪顿Y公司BlocVentures的戴維萊夫特利(DavidLeftley)表示:“現在全球企業都在追求凈零碳排放,而我們卻在通過與AI聊天機器人對話的高能耗方式給地球燒出一個洞?!?8最后,碳排放和算力問題也在制約著AIGC預訓練模型的開源。目前,有很多頭部機構的預訓練模型無法開源的一個重要原因是,小型開發者無法承受算力成本。因此,有一部分開發者將超大模型的各種
133、能力拆分到參數相對更小的模型上,以解決算力和能耗問題。還有一部分通過加快大模型推理速度、降低算力成本、減少能耗,以此來突破預訓練模型的發展制約。比如Meta的OPT只需要16塊英偉達v100GPU就可以訓練和部署完整模型的代碼庫,這是GPT-3的七分之一。此前有專家估計,GPT-3的訓練使用了上萬塊英偉達v100GPU,總成本nt9c5f7154-5222-4b3-a6a9-f23879fdod6ahttps:/AIGC發展趨勢報告20258里接人工智能的下一個時代#page#高達2760萬美元,個人如果要訓練出一個PaLM也要花費900至1700萬美元。大模型的訓練成本若能降下來,自然也就能
134、提高他們的開源意愿。但歸根結底,這只能從工程上對算力資源的約束起到緩解作用,而并非終極方案。盡管目前許多千億級、萬億級的大模型已經開始宣傳自己的“低能耗”優勢,但算力的圍墻仍然太高。業界也逐漸認識到能源消耗和環境問題對深度學習技術發展和應用的制約。2020年,Schwartz等人提出綠色AI的理念,倡導通過調整推理模式、提升訓練策略等一系列方式在達到同等訓練結果的情況下降低技術成本和能源消耗。4這一理念逐漸被廣泛接受。針對AIGC預訓練模型,也可以采取更少的訓練示例來改善下游性能,同時提升其模型的遷移能力等。CM,2020,63(12):54-6359#page#C16工腿中展望:擁抱人工智能
135、的下一個時代,打造可信AIGC生態曹建峰本章主筆:騰訊研究院高級研究員6#page#2022年見證了AIGC的快速起和破圈發展。但對于AIGC領域而言,這僅僅是一個開始,更大的變革尚待開啟。在過去的深度學習黃金十年,人工智能的感知、理解能力不斷增強,為AIGC的爆發奠定基礎。如今,隨著生成算法、大模型、多模態技術等AI技術的持續創新和發展成熟,AI領域正在經歷從感知、理解到生成、創造的躍遷。以AIGC這一新的疆域為標志,AI領域正在迎來下一個時代。融合大模型和多模態技術的AIGC模型,有望成為新的技術平臺,深度賦能各行各業。未來,“AIGC+”將在經濟社會的各個領域持續大放異彩。從基礎性的AI
136、GC模型,到中間層的垂直化、定制化、個性化的模型工具,再到下游層出不窮的、各種各樣的AIGC產品和服務,AIGC的產業生態正在加速形成和發展。AIGC將創造出巨大的經濟社會價值,其應用不限于互聯網領域,也將給文化、娛樂、教育、金融、醫療、公共服務、交通、制造等諸多領域帶來積極影響。經歷了2022年的喧器和炒作,2023年AIGC將乘勢而起,迎來更大發展。面向人工智能的下一個時代,人們需要更加負責任地、以人為本地發展應用AIGC技術,打造可信AIGC生態。面對AIGC技術應用可能帶來的知識產權保護、信息內容安全、算法歧視和社會倫理等問題,社會各界需要協同參與、共同應對,通過法律、倫理、技術等方面
137、的多元措施支持構建可信AI生態。在立法方面,網信辦等三部門出臺的互聯網信息服務深度合成管理規定針對深度合成技術服務提出的要求和管理措施,諸如禁止性要求、標識要求、安全評估等,亦適用于AIGC。下一步,需要著重從以下方面持續推進AIGC的政策和治理。其一,政府部門需要結合AIGC技術的發展應用情況,制定并明晰AIGC的知識產權與數據權益保護規則。目前,AIGC的知識產權與數據權益保護規則的不明確,在某種程度上導致甚至加劇了AI領域的亂象。其二,研發應用AIGC技術的主體需要積極探索自律管理措施,例如,秉持不作惡、科技向善等目的,制定適宜的政策(消極要求和積極要求),采取控制和安全措施保障AIGC
138、的安全可控應用,采取內容識別、內容潮源等技術確保AIGC的可靠來源。其三,打造安全可信的AIGC應用,需要深入推進A倫理治理。例如,行業組織可以制定可信AIGC的倫理指南,更好支持AIGC領域的健康可持續發展;AIGC領域的創新主體需要考慮通過倫理委員會等方式,推進落實AI風險管理、倫理審查評估等,確保在AIGC應用中實現“倫理嵌入設計”(ethicsbydesign)。其四,產業政策需要支持、促進AIGC在產業互聯網領域的深入應用,挖掘合成數據作為AI數實融合基礎載體的巨大價值,持續壯大我國發展人工智能的數據要素優勢。此外,#page#社會各界需要攜手應對AIGC領域的能源消耗問題,致力于打
139、造綠色可持續、環境友好型的A模型,實現智能化與低碳化融合發展。未來已來,讓我們擁抱AIGC,擁抱人工智能的下一個時代,打造更美好的未來。AIGC發展趨勢報告20262#page#研究顧問司曉騰訊研究院院長楊健騰訊研究院總顧問馮宏聲騰訊公司公共事務副總裁研究策劃張欽坤騰訊研究院秘書長周政華騰訊研究院資深專家杜曉宇騰訊研究院副院長曹穎騰訊研究院副院長田小軍騰訊研究院副秘書長寫作團隊胡曉萌騰訊研究院研究員、博士后曹建峰騰訊研究院高級研究員王煥超騰訊研究院研究員胡璇騰訊研究院高級研究員陳楚儀騰訊研究院高級研究員徐思彥騰訊研究院高級研究員朱開鑫騰訊研究院高級研究員支持團隊彭宏潔陳孟童祁王平祿李孜王強宋揚劉莫閑劉樂茂吳秉哲章書俞剛王泓暉顏鎮鐘陳俊文#page#page#