1、ChatGPT與人工智能技術發展報告關鍵詞:ChatGPT 自然語言處理 AI數據 AI芯片2023.4.14 第1頁/共59頁 目錄 前言:人工智能市場現狀與發展回顧.6(一)人工智能整體回顧.6(二)全球及中國人工智能市場規模.6(三)人工智能投融資情況與企業上市情況.7(四)人工智能專利技術情況.9 4.1 全球人工智能專利公開與申請情況.9 4.2 全球人工智能專利來源國分布情況.10(五)全球人工智能部分政策及規劃.11(六)人工智能部分重要進展更新.12 6.1 國外最新進展.12 6.2 國內最新進展.12 第一章:爆紅的 chatGPT.14(一)ChatGPT 基本概念.14
2、(二)發展歷程.14(三)市場現狀與發展概況.14 3.1 市場規模.15 第2頁/共59頁 3.2 投融資情況.16 3.3 國內外產業布局情況.17 3.4 產業鏈圖譜.17(四)相關重要技術.18 4.1 大型語言模型(LLM).19 4.2 人類反饋強化學習(RLHF).19(五)重點應用領域.20(六)未來發展趨勢.21(七)龍頭企業發展動向.22 7.1 國內外龍頭企業布局情況.22 7.2 國際龍頭企業OpenAI.23 7.3 國內龍頭企業百度.24 第二章:相關行業發展之自然語言處理.26(一)基本概念及作用.26(二)發展階段.27(三)市場現狀與發展概況.28 3.1 市
3、場規模.28 第3頁/共59頁 3.2 投融資情況.30 3.3 專利技術.31 3.4 產業鏈.32(四)重要技術進展.32(五)未來發展趨勢.33(六)龍頭企業發展動向.34 6.1 國際龍頭企業Google.34 6.2 國內龍頭企業科大訊飛.35 第三章:相關行業發展之 AI 數據.37(一)基本概念及作用.37(二)發展階段.38(三)市場現狀與發展概況.38 3.1 市場規模.38 3.2 投融資情況.40 3.3 專利技術.40 3.4 產業鏈.41(四)重要技術進展.42 第4頁/共59頁(五)AI 數據發展趨勢.43(六)龍頭企業發展動向.43 6.1 國際龍頭企業Appen
4、.43 6.2 國內龍頭企業海天瑞聲.45 第四章:相關行業發展之 AI 芯片.46(一)基本概念及作用.46(二)AI 芯片分類.47(三)發展階段.48(四)市場現狀與發展概況.49 4.1 市場規模.49 4.2 投融資情況.51 4.3 產業鏈圖譜.51(五)芯片類型對比.52(六)未來發展趨勢.53(七)龍頭企業發展動向.54 7.1 國際龍頭企業英偉達.54 7.2 國內龍頭企業寒武紀.55 第5頁/共59頁 文獻參考.57 廣聞廣識公司簡介.59 第6頁/共26頁 前言:人工智能市場現狀與發展回顧(一)人工智能整體回顧 2021-2022 年,全球人工智能市場呈現出蓬勃發展的態勢
5、:應用領域不斷擴大:人工智能應用領域已經不再局限于傳統的圖像和語音識別、自然語言處理等領域,而是涵蓋了金融、醫療、制造業、物流、零售等各個行業,并且在這些領域中得到了廣泛應用。技術創新不斷推進:隨著深度學習、自適應系統、自主學習技術的不斷發展,人工智能技術不斷向前推進,越來越多的企業開始嘗試將人工智能技術應用到其核心業務中。產業生態加速形成:人工智能已經成為一個擁有完整產業鏈的領域,從芯片、算法、平臺、應用等方面都有相應的企業存在,并且這些企業之間形成了一定的合作與競爭格局。政策不斷推動:各國政府都將人工智能視為未來的重要戰略領域,出臺了一系列支持政策和計劃,以促進人工智能技術的發展和應用。未
6、來隨著技術不斷提升和應用廣泛,人工智能市場將會變得更加成熟和完善。(二)全球及中國人工智能市場規模 近年來,隨著計算機技術的不斷進步和應用領域的擴大,全球人工智能市場正在快速發展。據預測,到 2022 年,該市場規模已達 1290 億美元,其中中國 第7頁/共26頁 市場規模預計達到130.3億美元,超過全球市場規模的十分之一。未來2022-2026年,中國人工智能市場預計將以 19.6%的年復合增長率穩步發展,2026 年將有望超過 266.9 億美元。圖 0-1:2022-2026E 全球及中國人工智能的市場規模(數據來源:market.us,IDC)(三)人工智能投融資情況與企業上市情況
7、 在 2014 年以前,多數重要模型都是由學術界發布。然而,隨著先進人工智能系統的構建越來越依賴于大量數據、計算機能力和資金資源,相較于非營利組織和學術界,行業參與者擁有更豐富的資金資源,因此成為研發重要模型的主要力量。到 2022 年,已經有 32 個重要的機器學習模型誕生在工業界,而學術界僅有 3 個。2022 年,全球人工智能領域的私人投資經歷了十年來的首次下降。相比于 2021年,2022 年 919 億美元的投資金額下降了 26.7%。中國的人工智能領域的投資情況與全球趨勢類似。在 2020 年至 2021 年期間,中國的人工智能領域一級市場總融資金額從 991.79 億元增長至 2
8、187.92 億元,實現了 120%的增長。然而,截至2022 年 11 月 10 日,總體呈現下降趨勢。第8頁/共26頁 圖 0-2:2019-2022 年 11 月 10 日中國人工智能領域一級市場股權融資情況(數據來源:IT 桔子)2015-2022 年 11 月 10 日,中國人工智能領域一級市場的平均單筆融資金額是呈波動增長的趨勢,在 2017 年后,單筆融資金額平均不低于 1 億元,在一定程度上表明人工智能領域平均估值有所提升,投資門檻越來越高。圖 0-3:2015-2022 年 11 月 10 日中國人工智能領域一級市場平均單筆融資金額(數據來源:IT 桔子)2015 年至 20
9、22 年 11 月 10 日,中國人工智能領域早期投資呈現顯著下降趨勢,波動范圍最大,從占比 60%下降至 25%。相比之下,成長期投資占比變化 第9頁/共26頁 較小,基本保持穩定;而戰略投資和中后期投資則有一定程度的增加。值得注意的是,從 2019 年開始,成長期投資的占比開始高于早期投資,且一直保持這種趨勢至 2022 年 11 月 10 日。在一定程度上表明國內人工智能領域的風險投資偏好正在逐漸走向成熟的態勢。圖 0-4:2015-2022 年 11 月 10 日中國人工智能領域一級市場融資階段分布(數據來源:IT 桔子)(四)人工智能專利技術情況 4.1 全球人工智能專利公開與申請情
10、況 全球人工智能領域每年專利公開數量呈逐年上升趨勢,2022 年達到 3 萬項以上。從專利數量上看,人工智能在不斷的發展進步。第10頁/共26頁 圖 0-5:2017-2023 年 4 月 7 日全球人工智能行業專利公開與申請情況(數據來源:智慧芽)圖 0-6:2017-2023 年 4 月 10 日全球人工智能行業前十大熱門技術詞(數據來源:智慧芽)4.2 全球人工智能專利來源國分布情況 2018-2023 年 4 月 10 日,我國在人工智能專利公開數量上處于絕對領先地位,遠超美、日韓等其他國家。第11頁/共26頁 圖 0-7:2017-2023 年 4 月 10 日全球人工智能國家技術分
11、布(數據來源:智慧芽)(五)全球人工智能部分政策及規劃 第12頁/共26頁 圖 0-8:2021-2023 年 4 月 10 日全球人工智能行業相關政策及規劃部分匯總(六)人工智能部分重要進展更新 6.1 國外最新進展 2023 年 1 月 3 日,Meta 發布自監督算法 data2vec 2.0:通過整合語音、視覺和文本三種數據模態,使用一個框架進行訓練,可以在保持相同精度的情況下,將訓練效率提高 16 倍。2023 年 1 月 27 日,谷歌公布文字-圖像生成模型 Muse(繆斯)、MusicLM等:文字可以直接生成高保真的音樂。2023 年 1 月 28 日,斯坦福團隊推出 Detec
12、tGPT:旨在幫助教育工作者識別出 ChatGPT 生成的論文。2023 年 1 月 28 日,馬斯克合伙人研制大腦“第七層”:癱瘓病人可用意念操作電子設備。2023 年 1 月底,GPT-3 核心成員打造 ChatGPT 競品 Claude:目標成為一款安全、符合人類價值觀且遵循道德規范的人工智能系統。2023 年 2 月 24 日,Meta 公布一款新的人工智能大型語言模型 LLaMA:能支持研究人員在多項復雜任務中取得進展,如生成文本、進行對話、撰寫總結性文件、證明數學定理或預測蛋白質結構等。6.2 國內最新進展 2022 年 12 月 28 日,新型智能皮膚可實現手部任務快速識別:未來
13、或許可 第13頁/共26頁 實現在隱形鍵盤上打字,實現沉浸式觸摸。2023 年 1 月 25 日,中山大學聯合團隊實現機器人液化越獄:在未來,醫療保健、精準貨物運輸以及電子維修等領域可能會受益于該新技術的發展。2023 年 1 月底,中山大學研發“數字流式”系統 DeepFundus:促進人工智能在臨床方面的應用。2023 年 3 月 16 日,百度推出中國式的 ChatGPT 服務:為中國提供了一個更加便捷和高效的自然語言處理平臺,有助于推動中國在人工智能領域的發展和應用。2023 年 4 月 7 日,阿里云自研大模型“通義千問”開始邀請用戶測試體驗:每一家企業未來都能夠在阿里云上調用通義千
14、問的全部功能,同時利用自身的行業知識和應用場景訓練自己的企業大模型。2023 年 4 月 10 日,商湯科技宣布推出自研的中文語言大模型應用平臺“商量”:它具備自然語言生成、文本生成圖、感知模型標注和模型研發功能,能夠理解多輪對話和超長文本。第14頁/共26頁 第一章:爆紅的 chatGPT(一)ChatGPT 基本概念 ChatGPT 是由 OpenAI 開發的一種 AI 語言模型,它可以根據給定的輸入生成類似于人類的文本。該模型經過在大量文本數據集上的訓練,具備生成問題回答、長文本總結、故事創作等能力。通常情況下,它被用于對話式 AI 應用中,以模擬與用戶進行類人對話。(二)發展歷程 圖
15、1-1:GPT 模型迭代歷程(三)市場現狀與發展概況 第15頁/共26頁 3.1 市場規模 ChatGPT 所涉及的行業屬于 AI 生成內容行業(Artificial Intelligence Generated Content,AIGC)。這個行業整合了人工智能、大數據、云計算、5G等多個技術領域,可以在創意、表現力、迭代、傳播、個性化等方面發揮技術的優勢。在 2021 年之前,AIGC 主要生成文字內容,但是新一代的模型 ChatGPT-4已經可以處理文字、語音、代碼、圖像、視頻、機器人動作等多種格式的內容。隨著深度學習模型的不斷完善、開源模式的推動以及大型模型商業化的可能,AIGC 行業
16、未來發展前景廣闊。第二章:相關行業發展之自然語言處理(一)基本概念及作用 自然語言處理(Natural Language Processing,簡稱 NLP),是指利用人類交流所使用的自然語言與機器進行交互通訊的技術,通過人工智能技術對自然 第16頁/共26頁 語言進行處理,使得計算機對其能夠可讀并理解,也是 chatGPT 類的 AI 文本生成功能的核心技術之一。自然語言處理涉及細分領域很多,其核心任務涉及兩部分,自然語言理解(Natural-language Understanding,簡稱 NLU)和自然語言生成(Natural-language generation,簡稱 NLG)。圖
17、 2-1:自然語言處理的工作流程 ChatGPT 和自然語言處理之間是相輔相成的關系:首先,自然語言處理作為 chatGPT 的核心技術之一,它的研究啟發了大規模語言模型的構建,使得 ChatGPT 能夠更好地理解自然語言,生成更加優質的文本。其次,自然語言處理任務中的數據集和評估指標也為 ChatGPT 的訓練和評估提供了基礎和參考。此外,自然語言處理還促進了 ChatGPT 在多任務學習、遷移學習等方面的應用,進一步拓展了 ChatGPT 的應用范圍和性能。反之,ChatGPT 的出現也深刻地影響了自然語言處理領域。一方面,大規模語言模型中蘊含的信息使得傳統自然語言處理任務(如分詞、詞性標
18、注、句法分析等)不再需要專門的研究。另一方面,ChatGPT 將各種自然語言處理任務轉化 第17頁/共26頁 為序列到序列生成問題,打破了任務間的界限,促進了多任務學習和遷移學習的發展。此外,工業界擁有豐富的計算資源、用戶信息和反饋數據,這與學術界進行系統級研究形成互補,產生了相互促進的作用。(二)發展階段 自然語言處理的發展過程對人類具有重要意義。自然語言處理最早可以追溯到 20 世紀 50 年代,隨著自然語言處理技術的不斷進步,我們可以更好地利用自然語言與計算機進行交互,從而實現更高效、更便捷的信息處理和溝通方式。ChatGPT 就是自然語言處理技術應用的優秀代表。圖 2-2:自然語言處理
19、發展歷程(三)市場現狀與發展概況 3.1 市場規模 第18頁/共26頁 第三章:相關行業發展之 AI 數據(一)基本概念及作用 數據是 AI 的三大基石(算法、算力)之一,ChatGPT 在對語言做出反應時,需要的不僅僅是在不同行業數據的采集和利用,還包括數據準備、模型選擇、訓練、評估、參數調整、預測等流程。圖 3-1:AI 數據工作流程 第19頁/共26頁 AI 數據對 ChatGPT 的重要性在于為 ChatGPT 提供了大量的訓練數據和算法評估服務,從而使其在自然語言處理方面表現更出色。AI 數據平臺可以提供海量的對話樣本和其他類型的 NLP 數據,這些數據可以用來訓練和優化 ChatG
20、PT 模型,并使其能夠更好地理解和回答用戶的問題。此外,AI 數據平臺還可以提供常規任務數據,如文本分類、實體識別等,這些任務可以幫助 ChatGPT 實現更復雜的應用場景。同時,AI 數據平臺還可以提供精準的模型評估服務,以評估 ChatGPT模型的準確度和效果。(二)發展階段 AI 數據的發展經歷了四個階段:數據收集階段、數據標注和整理階段、數據共享和開放階段、AI 數據平臺階段。AI 數據為 AI 模型提供了用于訓練、測試和優化的數據,使它們能夠更快地學習和適應新的任務。AI 數據的廣泛應用和使用,有利于提高 AI 模型的準確性和效率。這些數據比如包括從標準低級任務(如圖像分類)到復雜高
21、級任務(如對話生成)的各種數據來源,可以為 AI 模型提供足夠的知識和內容,促進 AI 模型逐步提升到能夠解決高級任務的水平。AI 數據行業正在迅速發展,AI 數據市場正在擴大,對于推動 AI 技術發展、提高 AI 模型能力、促進 AI 應用落地和促進整個 AI 行業的發展方面都具有重要的作用。第20頁/共26頁 圖 3-2:AI 數據發展歷程(三)市場現狀與發展概況 第四章:相關行業發展之 AI 芯片(一)基本概念及作用 AI 芯片是 ChatGPT 實現的基礎,更是承載人工智能行業發展的基礎設施,為模型訓練提供算力支持。廣義上講,能夠運行人工智能算法的芯片都叫做 AI 芯片,但是通常意義上
22、的AI 芯片指的是針對人工智能算法做了特殊加速設計的芯片。AI 芯片也被稱為 AI加速器或計算卡,即專門用于處理人工智能應用中的大量計算任務的模塊。深度學習模型與推薦式系統模型復雜度進一步提升,對芯片算力提出了更高的要求,AI 芯片算力已步入蓬勃發展階段。第21頁/共26頁 根據機器學習算法步驟,可分為訓練(training)芯片和推斷(inference)芯片。從技術架構來看,AI 芯片主要分為圖形處理器(GPU)、現場可編程門陣列(FPGA)、專用集成電路(ASIC)、類腦芯片四大類。圖 4-1:AI 芯片分類(二)AI 芯片分類 不同的應用場景,按照“端-邊-云”,對 AI 芯片有著不同
23、的要求。其中端和邊上進行的大部分是 AI“推理”;大部分的訓練過程是在云和數據中心進行,云端訓練和推斷計算主要由 Al 服務器完成,底層算力芯片包括 CPU、GPU、FPGA、ASIC 等。CPU 是 AI 計算的基礎,負責控制和協調所有的計算操作。GPU、FPGA、ASIC是 AI 計算的核心作為加速芯片處理大規模并行計算。第22頁/共26頁 圖 4-2:AI 芯片“端-邊-云”分類及對比(數據來源:ofweek 電子工程網、華為全聯接大會)圖 4-3:AI 芯片對比(三)發展階段 第23頁/共26頁 第24頁/共26頁 文獻參考 1【Acumen Research and Consulti
24、ng】GenerativeAIMarket and RegionForecast,2022-2030 2【IDC】2021-2022 中國人工智能計算力發展評估報告3【IT 桔子】2022 年中國人工智能投融資分析報告4【market.us】Global Artificial Intelligence Market By Solution(Hardware,Software,and Services),By Technology(Deep Learning,Machine Learning,NLP),By End-Use,By Region,Segment Outlook and Foreca
25、st 2023-2032 5【艾媒網】2023 年中國 AIGC 行業發展研究報告6【國金證券】傳媒互聯網產業行業深度研究:AIGC 步入快車道,游戲行業降本增效或超預期 7【國金證券】計算機軟件行業深度研究:新場景催化 AI“燃料”數據采標需求加速釋放 8【國盛證券】百度集團-SW(09888):類 Chat-GPT 產品將上線,AI 商業化探索行業領先 9【國盛證券】金山辦公(688111):AI 能力積淀已久,國產軟件扛旗者邁入智能辦公新紀元 10【華西證券】“文心一言”發布,國內廠商距離復現 ChatGPT 有多遠?11【申萬宏源】AIGC 系列之七:國產 AI 芯片的百倍算力需求 第25頁/共26頁 12【斯坦?!?022 年人工智能指數報告13【浙商證券】寒武紀深度報告:GPT 算力系列深度寒武紀(688256):中國AI 芯片先行者 14【智譜 AI】人工智能發展月報 第26頁/共26頁 廣聞廣識公司簡介 上海廣聞廣識信息科技有限公司致力于打造行業領先的信息服務平臺,以龐大的專家網絡與專業合規的服務體系為依托,希望通過促成各種形式的溝通交流,從而拓展人脈,使得各方都能在溝通中獲益。廣聞廣識通過線上線下會議、專家訪談等形式,快速靈活為各類基金公司和投資機構提供高價值、高定制化的行業知識服務,分享與傳遞專業意見,賦能客戶決策。